肖彬:大模型推理框架升级之路
创始人
2024-12-23 13:41:27

今天分享的是:肖彬:大模型推理框架升级之路

报告共计:26页

本文主要介绍了百川智能在大模型推理框架性能优化方面的工作,包括量化、投机采样、TTFT与TPOT优化、通信优化四个方面。

1. 量化

量化是大模型性能优化的重要手段,可降低显存占用和访存量,充分利用计算资源。百川智能在大模型计算流程中,对Weight和KV_cache进行了不同程度的量化,从最早的Weight-int8 + KV_cache-int8,到Activation int8,再到Weight-int4 + kv_cache-int4,逐步降低显存占用,提升模型性能。目前Attention QKV int8正在开发中,将gemm计算全线转为int8计算。

2. 投机采样

投机采样利用decode过程算力冗余,生成多个候选token并行验证,提升命中率和推理速度。百川智能通过不断尝试不同的模型结构设计路线,如使用transformer block前几层信息预测、单独建一层可学习的transformer block收集全局信息、尝试attention结构等,最终在命中率和端到端推理速度上取得了显著提升。

3. TTFT与TPOT优化

TTFT与TPOT优化旨在平衡首token耗时与decode每个token间耗时,提升用户体验。百川智能采用了Chunk prefillchunk prefill技术,将单次prefill计算拆分为多段计算,降低decode间隔时间;同时采用Split fused技术,将chunk prefill与decode计算整合,提升计算利用率。此外,通过算子优化和PD分离等手段,进一步优化了推理过程。目前PD分离还在开发测试中。

4. 通信优化

通信优化主要针对4090卡等通信能力较弱的情况,减少通信耗时,提高gpu算力利用率。百川智能通过计算通信overlap技术,根据计算通信占比的不同情况进行针对性优化,如在4090卡上进行8bit通信量化,在A800卡上采用gemm切块策略等。最终在不同卡型和模型上取得了显著的prefill阶段耗时降低收益。

以下为报告节选内容

报告共计: 26页

中小未来圈,你需要的资料,我这里都有!

相关内容

热门资讯

运营了17年的MMO,把新手村... 用不一样的方式讲故事。 文/青晖 《剑网3》里有个地方叫稻香村,是个新手村,每个玩家进入江湖的第一站...
原创 L... LOL选手比赛中发生重大失误,赛后连连道歉,发誓自己没有打假赛,这波操作,说实话,用“离谱”形容都不...
原创 梦... 梦幻西游2026春心萌动活动已于昨日12点开启全服投票,仅一天时间,男榜便呈现“神仙打架”的激烈态势...
《沙罗周期》评测9.2分:怒海... “硬核玩法设计教科书” 《沙罗周期》是Housemarque在《死亡回归》问世6载后,推出的又一款“...
原创 哪... 大家好我是指尖,哪吒的新皮肤已经全面曝光,不知道大家看过之后的感受如何,我只能说吸引力拉满了,想必很...