一边是“大力出奇迹”,一边则瞄准“四两拨千斤”,2025年,AI大模型“下半场”有了新打法:路径分化,拥抱开源。“一方面,部分国家为保持在AI领域的领先优势,会不断地‘卷算力’‘卷数据’‘拼规模’;另一方面,我国的AI发展路径已经逐渐明显,在持续推进算力基础设施建设的同时,做普惠AI,这样就能形成明确的差异化优势。”
——————————
DeepSeek的横空出世及开源策略正在牵动大模型赛道的分化,以及各国不同的AI发展路径之争。
2月18日,美国人工智能企业xAI发布Grok 3推理模型,其在多项性能上超过或媲美DeepSeek、GPT-4o等模型,埃隆·里夫·马斯克称这是“地球上最聪明的AI”。然而,马斯克透露,Grok 3的算力支持来源于xAI的“Colossus”超级计算集群,其在训练过程中累计消耗了高达20万张英伟达GPU。
今年1月,国内AI厂商深度求索(DeepSeek)发布了开源推理模型DeepSeek-R1,该模型在多个基准测试中与OpenAI公司的o1模型持平,但成本仅为o1的三十分之一,高性能、低算力需求使其迅速在全球走红,并开启了低成本训练模型的风潮。
一边是“大力出奇迹”,一边则瞄准“花小钱办大事”“四两拨千斤”,2025年,AI大模型“下半场”有了新打法:路径分化,拥抱开源。“一方面,部分国家为保持在AI领域的领先优势,会不断地‘卷算力’‘卷数据’‘拼规模’;另一方面,我国的AI发展路径已经逐渐明显,在持续推进算力基础设施建设的同时,做性价比高的普惠AI,这样就能形成明确的差异化优势。”快思慢想研究院院长、原商汤智能产业研究院创始院长田丰说。
“大力出奇迹”与“四两拨千斤”
当前,面对DeepSeek以高性价比强势破局,以xAI为代表的部分AI厂商依然坚持花重金“卷算力”,大模型领域为何会形成上述两种路径的分化?在田丰看来,这与“Scaling Laws”(尺度定律)的性价比降低有关。
在大模型中,“Scaling Laws”意味着当算力、算法、数据这3个关键因素被不断拉高上限并达到一定程度时,大模型的智能表现将出现跃升,即“智能涌现”。近两年,国内外AI厂商遵循着“Scaling Laws”持续投入,模型体积不断膨胀,参数数量呈指数级增长。“‘Scaling Laws’性价比最高的时候就是GPT-4时期,模型效果随着参数的增加有着指数级的提升。彼时,各大AI厂商纷纷购入高性能GPU,英伟达的市值更是迅速上升。”田丰说。
可如今,“Scaling Laws”的性价比似乎没有那么高了。有业内人士提到,Grok 3的计算量几乎是DeepSeek的几十倍,但性能却并没有提升几十倍,这从侧面也印证了“Scaling Laws”的性价比正在降低。中国信息通信研究院云计算与大数据研究所所长何宝宏也注意到,2024年,全球训练大语言模型的效果普遍不及预期,比如OpenAI的产品迭代速度明显放缓等。“这些情况都表明,大模型竞赛的上半场已经进入了‘垃圾时间’。”何宝宏说。
“预训练阶段的‘Scaling Laws’已经遇到瓶颈,但推理阶段的‘Scaling Laws’依然有很大机会。”田丰强调,DeepSeek正是在模型推理阶段找到了新解法。业内普遍认为,DeepSeek系列模型的横空出世,为全球通向AI未来开辟了一条新的路径,也给AI大模型的落地普及打开了更广阔的空间。
对于不同的大模型发展路径,AI厂商各有坚持。据了解,xAI的“Colossus”超级计算集群仍在扩张建设中,2025年年底规模有望达到50万张GPU;OpenAI等厂商也在继续推进“星际之门”AI基础设施投资项目,未来4年该项目希望有5000亿美元投入。与之相反的是,越来越多的科研团队开始竞逐低成本AI模型,比如美国一研究团队近日宣布研发出名为“s1”的模型,在衡量数学和编码能力的测试中,可媲美o1和DeepSeek-R1等模型,而训练租用所需的计算资源等成本只需约几十美元。
到底哪一条路才是对的?清华大学计算机科学与技术系长聘副教授、面壁智能创始人刘知远认为,极致高效、善用现有资源,走一条可持续的、高质量发展的路线,才是AI发展的正确道路。而在天使投资人、资深人工智能专家郭涛看来,走向AGI(通用人工智能),“大力出奇迹”的优势更大。
郭涛说,“大力出奇迹”凭借大规模数据和超强算力可以充分学习海量知识,挖掘深层次语义和逻辑关系,更有机会模拟人类的全面智能,逐渐逼近AGI。“而‘四两拨千斤’的工程创新虽然在特定场景高效,但很难快速拓展到能应对所有通用任务所需的全面智能程度。”
近期,国泰君安、中信证券等多家研究机构也对算力的作用给予肯定。华泰证券在2月20日发布的研报中提出,Grok 3证明预训练在算力提升下仍能突破。虽然目前在预训练数据上存在瓶颈,但是合成数据、RL(强化学习)数据等,或能逐步打破瓶颈。中信证券则认为,Grok 3作为全球首个在10万卡集群上训练的大模型,综合能力较前代模型提升显著,意味着算力堆积仍是模型进步的关键变量之一。
站在我国的角度,不少业内专家对记者表示,“花小钱办大事”的DeepSeek路径,更加符合当前AI产业的发展实际。田丰提到,一方面,国产算力芯片产能、良品率正在逐渐提升,未来3到4年可能会有较大突破;另一方面,国内企业利用软件层面的性价比优势,提升模型训练效率,降低成本,这就形成了一个“剪刀差”。“发展到一定程度,我国的AI产业将实现更快速的发展。”
“整体来说,更多算力、更多数据肯定会有更大的价值。”在田丰看来,DeepSeek的出现使得AI技术在更大范围被普及和使用,会带来推理算力需求的增长,这将是国产芯片的机会。“专用推理芯片比通用芯片要更容易研发,我国在推理芯片的研发制造上有较大优势,只要能快速实现量产,将在全球AI芯片市场上占据主动。”
国内AI厂商已经开始行动。2月24日,阿里巴巴集团CEO吴泳铭宣布,未来3年,阿里将投入超过3800亿元,用于建设云和AI硬件基础设施,总额超过去10年总和。“AI爆发远超预期,国内科技产业方兴未艾,潜力巨大。阿里巴巴将不遗余力加速云和AI硬件基础设施建设,助推全行业生态发展。”吴泳铭说。
拥抱开源开放
除发展路径分化外,新的一年,大模型还呈现出一个统一趋势:开源开放。
最初,开源指“开放源代码”,在人工智能和数字时代,开源更指的是“开放资源”。有业内人士告诉记者,其实在DeepSeek-R1发布之前,o1模型已经具备了深度思考的能力,只是OpenAI秉持闭源策略,并未公布o1的技术方案,而DeepSeek则是自主探索出了背后的技术,并对此进行了全面开源,引发全球热潮。
记者注意到,今年,在DeepSeek的带动下,越来越多的AI厂商开始拥抱开源:2月14日,百度宣布文心大模型4.5系列将于6月30日正式开源;OpenAI方面表示正在讨论公开AI模型权重;马斯克宣布,xAI将在Grok 3变得稳定后,对Grok 2开源……就在刚刚过去的2025全球开发者先锋大会上,商汤科技、MiniMax、阶跃星辰等多家参会企业也纷纷亮出自家最新的开源模型。
“对企业自身而言,开源可以吸引更多的关注和使用者,激发开源社区的创新活力,推动技术快速发展,还能通过共享资源和知识,来降低企业的研发成本。”郭涛对记者表示,越来越多AI企业选择开源,一方面将促使各企业更加注重打造差异化的生态体系,围绕开源模型衍生出不同的服务、插件、工具等产品;另一方面,为了在生态竞争中胜出,企业会联合起来制定统一的接口规范、数据格式等标准,提高整个行业的协同效率和兼容性。
实际上,大模型研发一直有开源和闭源两大阵营,比如OpenAI是闭源,Meta坚持开源。田丰告诉记者,在AI领域,很多企业会选择开源上一代模型,而对最新技术有所保留,但DeepSeek的出现,把最新的技术和成果都共享了出来,不藏私,这就彻底改变了开源的格局。“开发者没有足够的时间去适应所有大模型,大家只会选择最领先开源模型社区贡献力量。”在他看来,如今,大模型开源已经从技术开源逐渐走向了生态竞争。
2月21日,DeepSeek宣布将陆续开源5个代码库,以完全透明的方式分享其进展。在不少人看来,DeepSeek此举的目的就是以充分的开源,推动建设自己的大模型开源生态。“这就相当于开发者在DeepSeek的内部一样,可以看到它每天哪条路走通了,哪条路没走通。”田丰说,在保持技术领先的情况下,越大程度的开源就越有利于吸引全球开发者的关注和参与,这就形成了稳定的开源生态。
未来,要想让人工智能更好地发展,我们应该坚持闭源还是开源?对于这个问题,DeepSeek-R1给出的答案是:在人工智能发展路径的选择上,开源与闭源并非非此即彼的对立关系,人工智能发展需兼顾开源的技术普惠价值和闭源的商业可持续性,通过分层协作实现“共享-共赢”的科技平权目标。
“AI这个领域本身就是由开源推动的。”刘知远认为,开源不仅是一种技术选择,更是一种信任机制。当一个项目开源,意味着它向全世界证明自身的可信度——我说它能做到什么,任何人都可以去验证,这种机制将极大地提升现代社会的运作效率。“未来,开源会得到更深入、更广泛的应用,它是一种不可逆的趋势。”
对于企业,刘知远表示,不能简单地将开源视作一种无条件的共享,而是要注重如何在开源的基础上,构建更深层次的技术优势。“真正的竞争力,不在于某一个具体的开源模型,而在于如何高效、稳定、可持续地生产更先进的模型。这才是决定一家AI公司能否保持领先的关键。”他说。
本报北京2月24日电
中青报·中青网记者 贾骥业来源:中国青年报
2025年02月25日 05版