今天分享的是:肖彬:大模型推理框架升级之路
报告共计:26页
本文主要介绍了百川智能在大模型推理框架性能优化方面的工作,包括量化、投机采样、TTFT与TPOT优化、通信优化四个方面。
1. 量化
量化是大模型性能优化的重要手段,可降低显存占用和访存量,充分利用计算资源。百川智能在大模型计算流程中,对Weight和KV_cache进行了不同程度的量化,从最早的Weight-int8 + KV_cache-int8,到Activation int8,再到Weight-int4 + kv_cache-int4,逐步降低显存占用,提升模型性能。目前Attention QKV int8正在开发中,将gemm计算全线转为int8计算。
2. 投机采样
投机采样利用decode过程算力冗余,生成多个候选token并行验证,提升命中率和推理速度。百川智能通过不断尝试不同的模型结构设计路线,如使用transformer block前几层信息预测、单独建一层可学习的transformer block收集全局信息、尝试attention结构等,最终在命中率和端到端推理速度上取得了显著提升。
3. TTFT与TPOT优化
TTFT与TPOT优化旨在平衡首token耗时与decode每个token间耗时,提升用户体验。百川智能采用了Chunk prefillchunk prefill技术,将单次prefill计算拆分为多段计算,降低decode间隔时间;同时采用Split fused技术,将chunk prefill与decode计算整合,提升计算利用率。此外,通过算子优化和PD分离等手段,进一步优化了推理过程。目前PD分离还在开发测试中。
4. 通信优化
通信优化主要针对4090卡等通信能力较弱的情况,减少通信耗时,提高gpu算力利用率。百川智能通过计算通信overlap技术,根据计算通信占比的不同情况进行针对性优化,如在4090卡上进行8bit通信量化,在A800卡上采用gemm切块策略等。最终在不同卡型和模型上取得了显著的prefill阶段耗时降低收益。
以下为报告节选内容
报告共计: 26页
中小未来圈,你需要的资料,我这里都有!