OpenAI 前首席科学家伊利亚曾公开表示:“GPU 就是新时代的比特币。”
大模型一朝起飞,算力需求激增。作为AI淘金热里“卖铲子的人”,英伟达也因此成为了这轮技术变革里的最大赢家。随着AI军备竞赛的升级,即使GPU价格一路看涨,市面上也常常“一卡难求”。
一方面,GPU产能吃紧,实在无法跟上需求;另一方面,若是算力供给受制于人,那就等于将领先窗口期拱手让人。在这一背景下,众多厂商要么自研芯片,要么寻找替代方案,在GPU之外寻找新的算力解决之道。
那么,面对“一卡难求”的困境,到底如何破局?苹果放弃GPU选择TPU的背后有何玄机?国产芯片创业企业如何在巨头垄断的赛道上实现突围?
本期“AIGC实战派”邀请中昊芯英创始人&CEO杨龚轶凡,以及赛智伯乐投资合伙人蔡哲文就上述议题进行了探讨。
放眼当前的AI芯片市场,英伟达可以说一枝独秀。而英伟达之所以能占据如今的生态位,在蔡哲文看来,可以说“三分天注定,七分靠打拼”。
他谈到,英伟达的成功首先得益于它抓住了AI技术发展的大趋势。正所谓“时势造英雄”,随着大模型崛起,生成式AI遍地开花,算力需求激增,恰好市场上又缺乏专门针对这一领域的芯片,英伟达的GPU成为了一个自然的、合适的选择,从而占据了市场的先机。
更重要的是,英伟达在发展过程中坚持不懈地做出了种种努力。“在2006年左右,英伟达推出了CUDA系统,最初其实面临非常大的内部阻力,毕竟它不是一个能赚钱的东西,但最终英伟达坚持了下来,坚持推广这一系统,让大家接受并认可以此为中心构建的生态,从而自然而然地去用它的芯片。”最终英伟达成功地培养了用户习惯,建立了品牌忠诚度,也为它的产品创造了持续的需求。
那么英伟达是否会继续这样一骑绝尘下去呢?未必。
“从产品和技术角度上来说,我们不认为英伟达的GPU会是整个AI大模型的终点。”杨龚轶凡给出了这样的判断。
这位在人生的关键节点选择了回国创业的年轻创始人直接指出:“因为这个市场过于大了,所以会让大家对市场上的很多现象产生‘误解’。为什么如今英伟达GPU可以形成‘垄断’?因为还没有专业的芯片出来,专业芯片还在设计、量产的路上,但此时整个行业应用爆发了。”
人类历史上,半导体的整个发展历程总是以十年为一个周期发生重大变革。每一次变革都是因为现有应用的需求超过了现有工具的能力,当这个临界点到来,自然会催生新的技术和产品。
杨龚轶凡表示:当前AI的爆发正处于这样一个节点,虽然初期各种应用可以利用现有芯片满足需求,但随着应用的深化和市场扩展,专业AI芯片的出现将不可避免地改变市场格局。
“(未来)GPU可能只占据10%到20%的市场,剩下80%的市场都是由新型的AI芯片去占据。我们希望TPU会成为80%的市场份额里面的主力军。这是我们的愿景,也是我们为什么在国内成立中昊芯英的原因。”
当然也有人说,英伟达的显卡未必是最适合的AI训练工具,但它的CUDA生态,全球仅此一家。
由于CUDA的普及,大量的开发者和研究人员开始基于CUDA开发应用,形成了庞大的用户基础和应用生态。这种广泛的应用基础为英伟达GPU创造了强大的生态壁垒,使得其他竞争对手难以企及。但是随着技术的发展和市场需求的变化,CUDA的局限性也逐渐暴露,一些初创公司和团队正在尝试摆脱CUDA,寻求开发更高效、更适应特定需求的解决方案。
杨龚轶凡认为,任何行业包括人工智能行业在内,一般都可以分成两个阶段:在研发阶段,迭代速度是关键,因此开发者倾向于使用更熟悉的工具,这些工具的性价比是否是最优的反而不是主要考量因素;在产品化和商业运营阶段,尤其是大规模部署往往导致成本的敏感性增加,此时性价比往往会成为关键要素。这也是为什么 CUDA 生态虽然成熟,但到了产业化阶段,就会显现出其在性价比方面的劣势。
“因为所有通用的东西,它都是以损失绝对性能作为代价的。”杨龚轶凡强调,CUDA作为一个通用的软件栈,虽然提供了广泛的支持,但这种通用性是以牺牲一定性能为代价的。在特定应用场景下,这种性能损耗可能导致性价比不高,进而促使行业去寻求更定制化、更优化的软件栈。
另外值得关注的一点是,英伟达不仅是GPU制造商,也是大模型的重要构建者。遗憾的是,尽管英伟达在大模型领域投入巨大,但其GPU架构和CUDA软件栈可能无法满足未来技术演进对计算性能、成本效益和网络互联的更高要求。
杨龚轶凡指出,对于一个科技公司尤其是芯片公司而言,“它没有任何可能性更改自己的核心构架,完全去革自己的命”。因为这涉及到从零开始重新设计和开发,这是一个漫长且复杂的过程,相应的,建构在此之上的软件栈同样也要从头开始。换言之,无论是芯片还是软件栈,后续迭代都是基于前一代产品的实验结果和真实场景。
某种程度上,“GPU最大的优势可能就是CUDA,但它的最大的劣势也是CUDA”。
“因为CUDA软件栈限制了它。如果将来我决定不再使用GPU,转而采用TPU、LPU等其他更适合执行深度学习任务的硬件架构,这种惯性依赖就会变成它的限制条件。尽管GPU可以通过优化提高性能,但它存在一个理论上的天花板。相比之下,专门为AI设计的芯片如TPU,其性能上限可能远高于GPU。随着大模型的应用落地规模化产业化,更有效的AI芯片如TPU可能就会迎来爆发,因为它们能提供更高的性能和更低的成本。”
蔡哲文对此也表达了认同。在他看来,终有一天 GPU也会变得不那么合时宜,正如当年GPU取代了CPU在图形处理方面的功能一样,现在出现了专门为AI设计的芯片,这些专用芯片在处理AI任务时比GPU更加高效。只要未来整个 AI 应用的场景持续不断迭代,整个市场变得足够大,专用芯片逐渐取代GPU在AI领域的主导地位也是一个必然的趋势。
此外,蔡哲文还提到一点:GPU虽然在并行处理方面表现出色,但其能耗相对较高。随着对能效比要求的提升,高能耗可能会成为GPU在AI领域的一个劣势,尤其是在大规模计算任务中。不同地区在电力供应和新能源技术方面的差异可能会影响AI硬件的选择。如果GPU的高能耗成为限制因素,而专用AI芯片能提供更低的能耗和更高的性能,它们可能会成为更受欢迎的选择。
随着历史的车轮滚滚向前,GPU 可能不再有今日的地位,但是当下GPU 依旧主导了当前这个 AI 时代的硬件供应,而就在这样强势的包围下,谷歌 TPU 依旧穿越了重重考验,在时间的历练中成长为一个真正富有竞争力的对手。
2016年5月,谷歌在I/O大会上首次公布了TPU,并且称这款芯片已经在谷歌数据中心使用了一年之久,李世石大战 AlphaGo 时,谷歌直接将 TPU 称之为 AlphaGo 击败李世石的“秘密武器”。那么在已有 GPU 的前提下,谷歌为何执意要开发TPU呢?
杨龚轶凡提到,谷歌开发TPU的过程实际是一个“无心插柳柳成荫”的故事。TPU的产生并非谷歌高层直接规划的结果,而是内部团队自发探索、逐步验证、进而抓住时代契机实现商业化的过程。
最初,它诞生于一个内部创业项目。因为谷歌内部的创业环境允许团队进行自主探索和创新,TPU正是这种机制下的产物。不过鉴于软件项目的增长潜力、变现速度远大于硬件,所以 TPU 本身价值是不符合创始人愿景的,它需要验证其在特定领域的发展潜力。
于是, TPU 流转于谷歌内部不同部门之间,在不同的应用场景下接受考验。幸运的是,通过不断地试用和迭代,TPU逐渐展现出其在模型训练和推理中的效率和成本优势。特别是在谷歌广告部门使用后,推荐系统的精准度有所提升,这直接关联到营收增长,证明了TPU的商业价值。
这也为谷歌继续投入资源进行TPU的研发和迭代提供了动力。最终,随着AI技术的发展和大模型的崛起,TPU成为了谷歌在AI领域的一个重要竞争力。
不过在很长一段时间内,TPU 还是在 GPU 的暗影下低调发展。直到最近,苹果公布Apple Intelligence的细节,才再次让 TPU 走到台前,接受聚光灯的洗礼。根据相关论文的披露,苹果并没有采用常见的英伟达 H100 等 GPU,而是选了谷歌的 TPU,训练 Apple Intelligence 的基础模型,一时引起了诸多讨论。
对此,杨龚轶凡表示,起初TPU是谷歌自家使用的技术,并未开放供外部使用,但其开源文化昭示着它终会将TPU集群作为云服务的一部分对外开放,以推动整个行业的发展。而苹果是除了谷歌之外第一个使用 TPU 进行大模型训练的大型玩家。
“从技术角度来说的话,它主要的商业驱动力还是性价比。”杨龚轶凡介绍,TPU在相同制程、工艺和能耗条件下,由于其架构的特殊性,在深度学习和大模型领域具有更高的芯片利用率,通常可以实现3到5倍的性能提升,且在相同算力下成本可降低50%。而在商业化应用中,成本节约变得至关重要,这时TPU的高性价比就成为了关键优势。因此随着行业发展,像TPU这样的专用芯片很可能会成为主流算力平台。
蔡哲文则从行业角度对苹果的这一选择进行了分析。在他看来苹果转向TPU主要有四个原因:
一是市场驱动,随着人工智能的发展,市场需要性价比更高且易于复制的技术;二是技术演进,最初人工智能缺乏专用芯片,GPU作为一种权宜之计被广泛应用。但现在随着需求激增,需要更具成本效益的芯片。三是市场竞争规律,英伟达目前占据主导地位,但这也激发了竞争对手开发针对AI优化的新芯片来挑战其地位。尤其对于中小型新兴企业而言,涉足TPU领域是个好机会;四是天然匹配度,TPU源自谷歌,在与谷歌的大模型框架的兼容性和商业匹配上具有天然优势。总体来说,苹果的选择既是偶然也是必然。