肖彬:大模型推理框架升级之路
创始人
2024-12-23 13:41:27
0

今天分享的是:肖彬:大模型推理框架升级之路

报告共计:26页

本文主要介绍了百川智能在大模型推理框架性能优化方面的工作,包括量化、投机采样、TTFT与TPOT优化、通信优化四个方面。

1. 量化

量化是大模型性能优化的重要手段,可降低显存占用和访存量,充分利用计算资源。百川智能在大模型计算流程中,对Weight和KV_cache进行了不同程度的量化,从最早的Weight-int8 + KV_cache-int8,到Activation int8,再到Weight-int4 + kv_cache-int4,逐步降低显存占用,提升模型性能。目前Attention QKV int8正在开发中,将gemm计算全线转为int8计算。

2. 投机采样

投机采样利用decode过程算力冗余,生成多个候选token并行验证,提升命中率和推理速度。百川智能通过不断尝试不同的模型结构设计路线,如使用transformer block前几层信息预测、单独建一层可学习的transformer block收集全局信息、尝试attention结构等,最终在命中率和端到端推理速度上取得了显著提升。

3. TTFT与TPOT优化

TTFT与TPOT优化旨在平衡首token耗时与decode每个token间耗时,提升用户体验。百川智能采用了Chunk prefillchunk prefill技术,将单次prefill计算拆分为多段计算,降低decode间隔时间;同时采用Split fused技术,将chunk prefill与decode计算整合,提升计算利用率。此外,通过算子优化和PD分离等手段,进一步优化了推理过程。目前PD分离还在开发测试中。

4. 通信优化

通信优化主要针对4090卡等通信能力较弱的情况,减少通信耗时,提高gpu算力利用率。百川智能通过计算通信overlap技术,根据计算通信占比的不同情况进行针对性优化,如在4090卡上进行8bit通信量化,在A800卡上采用gemm切块策略等。最终在不同卡型和模型上取得了显著的prefill阶段耗时降低收益。

以下为报告节选内容

报告共计: 26页

中小未来圈,你需要的资料,我这里都有!

相关内容

热门资讯

评测!15元100张房卡代理,... Jn8eHe3摩托罗拉X50mini秀肌肉!在外观设计方面,据曝光的概念图显示,这款摩托罗拉X50m...
游戏测评!新道游大厅房卡怎么卖... A2Irealme GT3猛堆料!在外观设计上,据曝光的概念图显示,这款realme GT3正面采用...
大模型,在内卷中寻找出口 文 | 脑极体 2024年,大模型进展不断。从年初的Sora到最新的o3,更新更好的模型不断被推出...
AI陪伴APP星野+猫箱的流量... 文 | 新识研究所 最火热的AI应用,并不止只有功能越装越多的全能型AI产品。 谈起AI在我们日常...
又一“国家队”入局低空物流,中... 据天眼查的工商资料显示,近日,中邮无人机(北京)有限公司成立,由中国邮政集团有限公司旗下的中国邮政速...
游戏!斗牛房卡价格,大厅房卡正... SN.延续了几代的刘海屏也将会被抛弃,采用了全新的“感叹号”屏。以前一直觉得iPhone产品的刘海屏...
游戏知识!牛牛房卡批发价格,斗... XvmpwNxD.延续了几代的刘海屏也将会被抛弃,采用了全新的“感叹号”屏。以前一直觉得iPhone...
游戏推荐正版房卡批发大厅,微信... OD9不仅影像能力再度突破,还都适配了鸿蒙OS3.1,甚至原本单向的北斗卫星消息如今也升级为了双向,...
评测!微信金花房卡在哪里购买,... xzwviPhone16Pro这次的主要卖点,集中在屏幕上的体验和后置相机模组的设计,这两个设计可以...
ZPedia|小红书低调上线A... 图片小红书 根据公开信息,小红书近期上线了AI搜索新产品「点点」,背后 公司主体为上海生动诗章科技有...
“女娲”开“天眼” 12颗商业... 新华社北京12月23日电(记者苏晓洲、张漫子)23日晚,随着“宏图二号”09至12星成功发射入轨后完...
高质量发展看山西国企:交科集团... 近日,交科集团智研院公司自主研发的首架无人机成功试飞,标志着公司在无人机自主设计和研发领域实现了突破...
游戏指南!斗牛房卡批发价,牛牛... v等到A16系列处理器采用增强版工艺之后,iPhone14系列的性能应该会和安卓手机的处理器拉开更大...
游戏知识!金花牛牛房卡批发,斗... cGRpqgl3iPhone14 Pro系列的灵动岛将前置屏幕的药丸状挖孔与圆形挖孔结合在一起,根据...
游戏!金花房卡充值,金花房卡购... eXNK0m虽然距离传感器的位置改变,不过对于iPhone15系列手机来说灵动岛几乎没有变化,这种调...
游戏介绍!正规房卡链接在哪购买... Db而在电池续航方面, iPhone 15 Pro内置3095 mAh电池,而 iPhone 15则...
游戏知识!房卡批发价格表,牛牛... Tc置上,据悉该系列中的 iPhone 15 与 iPhone 15 Plus 或将采用一块 60H...
游戏!房卡批发价格表,微信小程... AxMpUr能够打败“阉割版”A15芯片的只有“满血版”A15,所以如果你在意性能,那么iPhone...
信利半导体取得节约包装成本的液... 金融界2024年12月24日消息,国家知识产权局信息显示,信利半导体有限公司取得一项名为“一种节约包...
明阳电气取得变压器专利,使变压... 金融界2024年12月24日消息,国家知识产权局信息显示,广东明阳电气股份有限公司取得一项名为“变压...