肖彬:大模型推理框架升级之路
创始人
2024-12-23 13:41:27

今天分享的是:肖彬:大模型推理框架升级之路

报告共计:26页

本文主要介绍了百川智能在大模型推理框架性能优化方面的工作,包括量化、投机采样、TTFT与TPOT优化、通信优化四个方面。

1. 量化

量化是大模型性能优化的重要手段,可降低显存占用和访存量,充分利用计算资源。百川智能在大模型计算流程中,对Weight和KV_cache进行了不同程度的量化,从最早的Weight-int8 + KV_cache-int8,到Activation int8,再到Weight-int4 + kv_cache-int4,逐步降低显存占用,提升模型性能。目前Attention QKV int8正在开发中,将gemm计算全线转为int8计算。

2. 投机采样

投机采样利用decode过程算力冗余,生成多个候选token并行验证,提升命中率和推理速度。百川智能通过不断尝试不同的模型结构设计路线,如使用transformer block前几层信息预测、单独建一层可学习的transformer block收集全局信息、尝试attention结构等,最终在命中率和端到端推理速度上取得了显著提升。

3. TTFT与TPOT优化

TTFT与TPOT优化旨在平衡首token耗时与decode每个token间耗时,提升用户体验。百川智能采用了Chunk prefillchunk prefill技术,将单次prefill计算拆分为多段计算,降低decode间隔时间;同时采用Split fused技术,将chunk prefill与decode计算整合,提升计算利用率。此外,通过算子优化和PD分离等手段,进一步优化了推理过程。目前PD分离还在开发测试中。

4. 通信优化

通信优化主要针对4090卡等通信能力较弱的情况,减少通信耗时,提高gpu算力利用率。百川智能通过计算通信overlap技术,根据计算通信占比的不同情况进行针对性优化,如在4090卡上进行8bit通信量化,在A800卡上采用gemm切块策略等。最终在不同卡型和模型上取得了显著的prefill阶段耗时降低收益。

以下为报告节选内容

报告共计: 26页

中小未来圈,你需要的资料,我这里都有!

相关内容

热门资讯

省政协委员:打通科技成果转化“... 打通科技成果转化的“最后一公里”,不仅需要政策引导,更需要懂技术、懂市场、懂高校的复合型人才作为桥梁...
优化人工智能应用生态 来自国务院新闻办公室的消息,2025年我国人工智能产业活力迸发、成绩显著,人工智能企业数量超6000...
大厂们的春节“豪赌”:莉莉丝、... 进入2月,恰逢春节黄金档期,新老游戏之间的市场竞争预计将趋于白热化。据陀螺君初步统计,2月共有24款...
拓元科技申请用于成型魔术贴立柱... 国家知识产权局信息显示,广州拓元科技发展有限公司申请一项名为“一种用于成型魔术贴立柱的模具组件”的专...