未来1-2年内,关键拐点即将到来:通过免费广告模式,AI应用的收入将足以覆盖推理成本。
2024年12月10日—12月11日,“万千流变,一如既往”2024甲子引力年终盛典在北京中关村国家自主创新示范区展示中心举办。70多位科技行业重要嘉宾带来了关于人工智能、机器人、科学智能、新质生产力等领域的最新分享和深刻洞见,其中大量内容为行业首发。
现场,PPIO派欧云联合创始人兼CEO,PPTV创始人姚欣为观众带来了主题为《PPIO派欧云实践与洞察:从算力过剩到推理制胜》的分享。
姚欣认为如今大模型虽点燃智算中心建设,但也面临使用率较低的问题,同时需求侧从 2023 年上半年的大模型创业训练热到后来热度降温,算力结构发生转变。
当前AI 应用需求正在发生变迁,大模型正从 To VC 泡沫炒作阶段走向 To B 落地阶段,未来可能走向 To C 阶段,当前制约在于 AI 推理成本,成本降低后将迎来应用爆发。企业可以进行推理成本优化,包括硬件降本(如硬件梯次利用)、算力调度(按需求波峰波谷配置资源)和推理加速。
同时他预计,2025 - 2026 年是 AI 转折年,随着AI推理成本每年近十倍的下降,大量AI 应用的收入将足以覆盖所有的推理成本,AI 应用将迎来免费时代。
以下是PPIO派欧云CEO姚欣演讲实录,「甲子光年」整理删改:
我的新创业项目叫PPIO派欧云,我们在AI时代进行了一些探索和思考,今天的主题是 “算力过剩到推理制胜”。
作为一名连续创业者,我从2004年PPTV创业开始,经历了从PC互联网到移动互联网的创业历程。我的第二段经历是2016-2018年在蓝驰创投做投资人,正赶上千团大战、百车大战。当时,我们看到大量资源被浪费,就像当年共享单车变成七色彩虹式的过度堆砌。与此同时,随着新基建的推进,大量数字基础设施也在快速建设中。
这些建设在后期面临了一系列挑战。我整理了一些数据,结合当前行业现状,回顾一下历史。
从2015、2016年开始,数字新基建持续发展,每年互联网数据中心的增速保持在30%-50%之间,机架上架数量在300万到1000万之间。
2019年,戴德梁行发布的IDC报告显示,互联网数据中心的上架率和区域分布密切相关。在北上广深地区,机房空间利用率能达到58%-70%。然而,在其他地区,尤其是数据中心建设最密集的贵州、内蒙古等地,利用率仅为34%。 全国平均来看,机房利用率不到50%,这就是上一波IDC数据新基建时出现的“IDC过剩”现象。
去年大模型点燃了新一代智算中心的建设。今年前七个月,全国新建了约140个智算中心。虽然这个绝对数量还跟当年百万级的数据中心没法比,但是随着未来两年大量投产落地之后,必然会面临着使用率较低的情况。
根据信通院在两个月前发布的调研报告,过去两年建设的智算中心,整体平均利用率约为30%。尽管如此,智算中心仍在持续建设中。 由此可以推测,超前建设的智算中心可能会面临像当年IDC数据中心一样的算力过剩问题,这也是供给侧所面临的挑战。
转向需求侧,2023年上半年大模型迎来爆发,业内普遍认为大模型是未来发展的关键,纷纷投身大模型的创业和训练。去年10月美国商务部对中国高端芯片实施禁运后,市场出现了算力短缺的局面。
然而,进入2024年,大模型热度明显降温,其中一个典型表现是,参与大模型预训练的企业数量显著下降。据最新媒体报道,国内至少有两家大模型公司已经放弃了预训练方向。
此外,今年年中发布的o1模型展现了一个新趋势,传统的Scaling Law主要依赖于大量数据和算力的堆积,训练出一个足够好的模型。但随着数据逐渐“枯竭”,这个规律也在发生转变。 新的Scaling Law正在从预训练转向后训练,后训练包括微调和推理环节。
国内公司如Kimi等,已经推出了一系列强化措施,采用更多推理侧算力,增加推理次数,通过思维链等新技术,进一步提升模型性能和推理效果,使得模型在处理复杂问题时的逻辑性更强。这一变化已成为当前行业发展的一个显著趋势。
还有一个热点,本周大家都关注OpenAI的发布会。我们也一直在关注音视频生成领域,部分原因是我早期在PPTV就参与了视频服务的相关工作。回顾互联网基础设施的变革,从文字、图片时代到视频时代的演进,带来了巨大的变化。
今天如果要同样的生成一分钟的视频,它的token消耗可能相当于数万倍文字生成的资源需求, 所以说别看小小的一分钟的Sora的视频,这些新一代多模态大模型会带来更大的推理消耗。
1.回溯,趋势在哪里?
这是我们对算力需求变迁的观察,但我们需要站得更高一些,从更广的视角来看问题,关注最终的应用需求将如何演变。在此,我并未专门讲述今天的AI,而是想分享我在PC互联网和移动互联网发展过程中观察到的一些趋势。
根据Gartner技术曲线,技术的发展通常经历三个阶段:首先是技术泡沫的炒作和破灭,然后进入到应用落地的阶段,最终迎来稳定增长的“光明期”。这三个阶段分别是面向VC的炒作阶段、面向B端的应用落地阶段,以及面向C端的大规模应用阶段。我相信,大家现在可以感受到, 大模型正处于泡沫炒作阶段的尾声,开始进入到To B的落地阶段。而我们认为,未来它将逐步走向To C阶段。
与此同时,通信资费也发生了巨大的变化。早期3G网络下,1GB流量的费用可能高达几十元,而进入4G时代后,这个价格降到了几元,甚至推出了包月流量服务。正是因为互联网流量资费的下降,以及手机硬件成本的显著降低,才促进了移动互联网的爆发式增长。
这一现象呈现出一个明显的趋势:在移动互联网应用落地的早期,通常是生产力类的工具占主导,包括办公、通讯、商旅,再到商业服务、电商购物等,而随着发展,移动互联网逐渐转向更多娱乐、休闲、消费等应用。
因此,我们预见AI应用也会经历类似的过程。目前,AI的成本正在快速下降,但尚未足够低廉,尚无法普遍覆盖所有应用场景。只有那些商业模式非常明确的To B应用,或者具备生产力功能的To C工具,才能承受当前的成本。
不过,我们相信,随着技术的进一步发展, 一定会有一个关键的交叉点,就像2014年、2015年间的移动互联网一样。那时,即使是依靠免费广告模式,也足以覆盖视频成本,抖音、快手等应用也是在那个时候迎来了爆发式的增长。我们相信,AI的应用也将迎来类似的时刻。
2.推理成本如何优化?
既然推理成本是一个至关重要的因素,我们来探讨一下推理成本究竟还有多少优化空间?PPIO派欧云作为一家分布式云计算企业,我们从最底层的IaaS基础设施,到PaaS平台服务,再到上面的大模型应用服务,进行了一次自下而上端到端的全程观察。
我们的观察, 推理成本的下降主要源自三大方面的优化。首先是硬件成本的降低,这包括如何找到更便宜的电力资源,国家提出的“东数西算”政策便是这一思路的体现。此外,我们还在探索如何充分利用硬件资源。例如,刚才袁总提到的,通过使用4090游戏卡替代,降低了硬件的整体成本。
具体来看,硬件的“梯次利用”也是一个重要趋势。以A100为例,虽然它逐渐从训练市场淡出,并且已经投入使用超过三年,成本摊销大多已经完成,但在推理任务中,A100的性能依然能够保持较高效能。因此,我们认为像A100这样的“老卡”不应当被一次性淘汰,而是可以继续用于推理任务,这就是我们提到的硬件降本中的一个重要环节。
第二个降本方式来自于算力调度。推理跟训练有什么区别?训练任务通常是密集且持续的,集群资源在训练期间几乎完全占用,且持续几个月。
但推理不同,推理则与用户的访问行为密切相关。白天工作时间内,生产力工具的需求较高,晚间则是娱乐需求的高峰期,而到深夜几乎没有用户。因此,推理需求通常呈现波峰波谷效应,你在做资源配置时,往往需要按最高峰期的需求进行配置,导致波谷期资源的浪费。
因此, 优化算力的调度和复用是降低推理成本的关键之一。通过合理调度和复用资源,可以大幅度提高资源的利用效率,甚至节省数倍的成本。
第三层的降本措施是推理加速。针对大模型和其他类型的模型,我们有一系列加速技术,可以显著提升推理效率。这些加速技术与硬件利用、算力调度相结合,形成了一个多层次的降本体系。
总体来说, 硬件降本、算力调度优化和推理加速这三方面的改进,综合起来为推理成本的持续下降提供了巨大的潜力,今年带来90%的降本空间,甚至综合起来还有一个持续的降本空间。这也是我们在观察中得出的结论。
3.PPIO派欧云实践有哪些?
接下来,我将具体介绍PPIO派欧云的思考和实践。首先,我们关注硬件方面:如何找到更便宜的电力、更丰富的GPU资源,甚至包括那些已经建设完成但未得到充分利用的二手训练卡?这也是我们多年来积累的经验和资源。
因为自2018年成立以来,PPIO派欧云一直致力于分布式云计算的建设。与传统的云计算中心不同,我们在全国各地部署了大量计算节点,这些节点整合了大量中国IDC机房的计算资源。到目前为止,我们已经在全国1200多个城市,以及亚洲的1300多个城市与本地合作伙伴建立了合作,通过这些合作伙伴整合各类算力资源,加入到我们的算力共享平台中。
这些节点中,部分具备GPU资源,包括训练卡、计算卡和推理卡等能力。通过这种方式,我们不断优化硬件资源的配置,实现硬件成本的最大化利用和摊销。比如,蓝色的点标示的是我们的网络覆盖范围,绿色的点则是我们已经开始整合的智能计算资源和GPU资源。
第二,算力调度至关重要。不同区域的电费、物价,甚至机房运维的成本差异极大。例如,即使是在同一省份,省会城市与地级市、县级市的电价差距可能达到1-2倍。此外,不同地区的需求也有所不同,不同时间段的需求波动也非常明显。因此,算力的调度必须时刻进行调整和优化。
调度的难点在于如何准确预测需求。在算力需求激增时,我们不能等到需求爆发后再进行调度,必须提前做好调度和资源分配。就像滴滴出行提前调度车辆一样,我们需要预判用户行为并进行相应部署。幸运的是,人工智能和机器学习技术的进步, 我们可以通过机器学习预测和洞察需求行为的未来趋势,从而实现智能调度,提前部署数据与计算任务,实现资源高效利用和全局负载平衡,确保算力供需匹配及运行成本最优。
第三,推理加速是我们重点关注的领域。目前,大模型在推理任务中,使用GPU作为计算架构并非最优选择。GPU是一种通用计算架构,既可用于训练,也可用于推理。然而,推理任务的特点是:它类似短跑,要求以最快的速度、最低的成本将训练结果快速呈现。
推理卡的瓶颈通常不在芯片的计算能力,往往在于显存和IO吞吐量的问题。当模型参数过大,无法在单台机器中存储时,频繁的数据吞吐和调度会导致延迟。我们通过一系列技术手段,包括有损和无损优化,来解决这些问题。
PPIO派欧云结合产学研最新成果,包括来自于整个系统架构领域最新的技术研发成果,我们将这一系列先进技术全面整合到工程能力和实际使用能力中,在成本与性能之间实现最佳平衡。
从实际数据来看,我们已经取得了显著的成本降低。以一个典型的8B模型为例,该模型在今年4月发布时,在我们PPIO平台上,百万token的费用大约为0.1美元,但到了今年11月,价格已经降至4分钱。我们预计,到明年4月,也就是模型发布一年后,成本还将进一步下降至当时的1/10。
这种降本不是通过补贴实现的,而是通过高效的资源整合和调度、优化硬件利用率,以及提升模型性能、推理加速来达到的。通过这些措施,我们成功实现了推理成本的十倍下降,为我们的客户提供了更高的性价比,这样的降本能力也能够去助推我们客户一系列的发展。
例如,我们为一家知名的小说推文APP提供服务,他们采用我们的模型能力替代自有的模型架构。这不仅使其推理成本降低了70%,而且生图速度提升了5倍,最终业务用量和营收在短短一个月内实现了3倍多的增长。
同样,我们也将业务扩展到海外。在海外市场,我们通过类似的资源整合和大模型技术应用,帮助全球Top10招聘网站通过大语言模型进行简历筛选和优化,显著减少了人工需求。以前需要近百人的简历优化团队,现在仅需5人即可完成同样的工作,这为客户带来了显著的业务增长。
我们中国企业在AI云计算领域取得的技术积累和资源优势,使得我们具备了与全球一流云计算公司和硅谷创新公司的竞争力。通过合理的成本控制和高效的性能优化,我们的技术和服务在全球市场上都表现出强大的竞争优势,包括图示的3B小模型和70B大模型,企业最常用的这种微调大模型,这些场景里面,我们都能具备很强的竞争能力。