肖彬:大模型推理框架升级之路
创始人
2024-12-23 13:41:27

今天分享的是:肖彬:大模型推理框架升级之路

报告共计:26页

本文主要介绍了百川智能在大模型推理框架性能优化方面的工作,包括量化、投机采样、TTFT与TPOT优化、通信优化四个方面。

1. 量化

量化是大模型性能优化的重要手段,可降低显存占用和访存量,充分利用计算资源。百川智能在大模型计算流程中,对Weight和KV_cache进行了不同程度的量化,从最早的Weight-int8 + KV_cache-int8,到Activation int8,再到Weight-int4 + kv_cache-int4,逐步降低显存占用,提升模型性能。目前Attention QKV int8正在开发中,将gemm计算全线转为int8计算。

2. 投机采样

投机采样利用decode过程算力冗余,生成多个候选token并行验证,提升命中率和推理速度。百川智能通过不断尝试不同的模型结构设计路线,如使用transformer block前几层信息预测、单独建一层可学习的transformer block收集全局信息、尝试attention结构等,最终在命中率和端到端推理速度上取得了显著提升。

3. TTFT与TPOT优化

TTFT与TPOT优化旨在平衡首token耗时与decode每个token间耗时,提升用户体验。百川智能采用了Chunk prefillchunk prefill技术,将单次prefill计算拆分为多段计算,降低decode间隔时间;同时采用Split fused技术,将chunk prefill与decode计算整合,提升计算利用率。此外,通过算子优化和PD分离等手段,进一步优化了推理过程。目前PD分离还在开发测试中。

4. 通信优化

通信优化主要针对4090卡等通信能力较弱的情况,减少通信耗时,提高gpu算力利用率。百川智能通过计算通信overlap技术,根据计算通信占比的不同情况进行针对性优化,如在4090卡上进行8bit通信量化,在A800卡上采用gemm切块策略等。最终在不同卡型和模型上取得了显著的prefill阶段耗时降低收益。

以下为报告节选内容

报告共计: 26页

中小未来圈,你需要的资料,我这里都有!

相关内容

热门资讯

江苏发布金融科技创新监管工具 ... 来源:视觉中国 扬子晚报网12月14日讯(记者 徐兢)12月14日,记者从中国人民银行江苏省分行获悉...
从“广交天下”到“科交未来”:... 人们将共赴这场冬日的科技盛宴。 珠江之水,浩浩汤汤,见证过多少次历史的潮起潮落,目睹了广州这座千年商...
谷歌要把数据中心送上太空!20... 想象一下,当你在地球上为数据存储和计算资源而苦恼时,谷歌却已经把目光投向了太空。是的,谷歌最近宣布了...
别让歪门邪道给新技术泼脏水丨头... (来源:经济日报) 转自:经济日报 装上“神器”就能让智能驾驶系统的安全警报消音?近日,一款在网络平...
专家指具身智能大规模落地仍处于... 中新社北京12月13日电 (记者 刘育英)13日在北京举行的2026中国信通院深度观察报告会上,中国...