肖彬：大模型推理框架升级之路_资讯

肖彬：大模型推理框架升级之路

创始人

2024-12-23 13:41:27

0次

今天分享的是：肖彬：大模型推理框架升级之路

报告共计：26页

本文主要介绍了百川智能在大模型推理框架性能优化方面的工作，包括量化、投机采样、TTFT与TPOT优化、通信优化四个方面。

1. 量化

量化是大模型性能优化的重要手段，可降低显存占用和访存量，充分利用计算资源。百川智能在大模型计算流程中，对Weight和KV_cache进行了不同程度的量化，从最早的Weight-int8 + KV_cache-int8，到Activation int8，再到Weight-int4 + kv_cache-int4，逐步降低显存占用，提升模型性能。目前Attention QKV int8正在开发中，将gemm计算全线转为int8计算。

2. 投机采样

投机采样利用decode过程算力冗余，生成多个候选token并行验证，提升命中率和推理速度。百川智能通过不断尝试不同的模型结构设计路线，如使用transformer block前几层信息预测、单独建一层可学习的transformer block收集全局信息、尝试attention结构等，最终在命中率和端到端推理速度上取得了显著提升。

3. TTFT与TPOT优化

TTFT与TPOT优化旨在平衡首token耗时与decode每个token间耗时，提升用户体验。百川智能采用了Chunk prefillchunk prefill技术，将单次prefill计算拆分为多段计算，降低decode间隔时间；同时采用Split fused技术，将chunk prefill与decode计算整合，提升计算利用率。此外，通过算子优化和PD分离等手段，进一步优化了推理过程。目前PD分离还在开发测试中。

4. 通信优化

通信优化主要针对4090卡等通信能力较弱的情况，减少通信耗时，提高gpu算力利用率。百川智能通过计算通信overlap技术，根据计算通信占比的不同情况进行针对性优化，如在4090卡上进行8bit通信量化，在A800卡上采用gemm切块策略等。最终在不同卡型和模型上取得了显著的prefill阶段耗时降低收益。

以下为报告节选内容

报告共计： 26页

中小未来圈，你需要的资料，我这里都有！

上一篇：中兴通讯联合合作伙伴成立开放智算产业联盟，加速AI及大模型行业落地

下一篇：游戏指南！牛牛房卡批发平台，牛牛房卡哪里买便宜，黑桃A房卡怎么买，战皇房卡哪里充值

热门资讯

重大通报牛牛房卡哪里有最低价，... 2cw6GKG此次华为旗舰新品发布会不仅有三款华为P60系列旗舰，而且还有华为折叠屏新机华为Mate...

带你了解牛牛房卡批发平台，怎么... izewMby20W有线快充速度的确比安卓手机慢，但回想一下，我们有几次充电是将手机电量完全耗尽的？...

科技通报正规房卡出售平台，金牛... pzx不管怎么进行调整，应该都要比iPhone13标准版的性能更强，不然也就很难让用户产生换机的欲望...

我来告诉你正规房卡链接在哪购买... G8W在摄像头方面，这款realme GT3采用了后置三摄的设计，后置三摄布局在手机背部中间靠顶部的...

带你了解微信金花房卡链接，正版... LyGO4K苹果手机如今基本已经成为了高端旗舰机型的代名词了，在全新的iPhone 14系列即将到来...

我来教你牛牛卖房卡多少钱一张，... qa6zo作为一名iPhone 13用户，我非常期待接下来要发布的iPhone 14 Max。说实话...

我来告诉你金花房卡怎么买游戏，... M在摄像头方面，这款realme GT3采用了后置三摄的设计，后置三摄布局在手机背部中间靠顶部的唯一...

带你了解牛牛房卡房间怎么开，久... c苹果手机目前发展的情况并不是特别好，一方面是有消息称iOS16可能不会带来特别多的改变，另一方面则...

带你了解正版游戏大厅房卡如何购... eaiaTr不仅影像能力再度突破，还都适配了鸿蒙OS3.1，甚至原本单向的北斗卫星消息如今也升级为了...

我来告诉你牛牛房卡最低价格，6... 7RXE3c其实，苹果之所以能走到今天，就是因为它的技术和创新能力，除了系统和芯片之外，细节方面也在...

玩家实测牛牛可以建房间吗，九酷... 6ULcdiPhone13后置1200万广角+1200万超广角，广角升级了传感器位移式光学防抖，使得...

重大通报牛牛房卡充值链接，战皇... QKjEP20W有线快充速度的确比安卓手机慢，但回想一下，我们有几次充电是将手机电量完全耗尽的？基本...

推荐一款微信金花房卡充值，超圣... AhBI其实，苹果之所以能走到今天，就是因为它的技术和创新能力，除了系统和芯片之外，细节方面也在逐渐...

玩家实测斗牛游戏在哪里找，怎么... wST3hLkW现在离iPhone14发布还有一段时间，对于迫切想要入手iphone手机的用户，iP...

玩家实测正版房卡批发大厅，大圣... MPG而且有消息称iPhone14系列中的标准版和新增的Max版本都将搭载A15处理器，又或者是A1...

重大通报牛牛房卡多少钱，九天大... uWYaE现在离iPhone14发布还有一段时间，对于迫切想要入手iphone手机的用户，iPhon...

一分钟揭秘正规房卡链接在哪购买... ZMk在核心硬件方面，据悉这款realme GT3采用了高通骁龙8 Gen3移动平台，作为高通下一代...

科技通报全游大厅房卡怎么购买，... x6对于库克引以为傲的第二个设计，就是相机镜头数量的增加，虽然当前主流的手机，后置相机镜头的数量维持...

带你了解如何找房卡平台，最便宜... 12比如说iPhone 14Pro版的两款机型将采用全新的ID设计，即网友所说的“感叹号”打孔，屏幕...

重大发现微信怎么充值金花房卡，... FuC能够打败“阉割版”A15芯片的只有“满血版”A15，所以如果你在意性能，那么iPhone13绝...

肖彬：大模型推理框架升级之路

相关内容

热门资讯