英伟达公司今天在圣何塞举办的年度GTC 2026开发者大会上,宣布了多款面向数据中心运营商的新芯片和计算平台。尽管大部分关注焦点都集中在英伟达最新的图形处理单元Rubin上,但全新的Groq 3语言处理单元可能会产生最大的影响。
这家芯片制造商在12月宣布,作为200亿美元交易的一部分,已经支付费用获得了Groq Inc.的技术许可,并聘请了其创始人乔纳森·罗斯和总裁桑尼·马德拉。仅仅三个月后,这笔交易产生的首款芯片就已经问世。
这家初创公司(不要与xAI公司的大语言模型Grok混淆)开发的处理器专注于人工智能推理,即运行AI模型,而不是训练它们。这与英伟达的GPU不同,GPU被认为是通用芯片,因为它们既可以训练也可以运行模型。
英伟达超大规模和高性能计算副总裁伊恩·巴克表示,虽然公司的GPU提供了更大的内存,但Groq 3的内存速度要快得多。它专门设计用于支持低延迟工作负载和智能体系统的大上下文需求,这些系统能够代表人类自动化工作。
该芯片在专门的Groq 3 LPX服务器机架中提供,由256个Groq 3 LPU组成,提供128GB的固态随机存取内存和每秒40PB的带宽,使其能够将推理处理加速到远超任何GPU所能达到的水平。
Groq 3 LPX设计为与英伟达新的Vera Rubin NVL72机架协同使用,该机架集成了Rubin GPU和公司新的Vera中央处理单元。英伟达解释说,该系统经过优化,可以运行万亿参数模型和百万Token上下文,与Vera Rubin配对以最大化功耗、内存和计算效率。巴克表示,两个系统结合可以提供每兆瓦功率35倍的吞吐量提升和10倍的收入机会。
英伟达将Groq 3视为Rubin GPU的一种协处理器,在"AI模型的每一层、每个Token上"提升性能,巴克说。这使英伟达能够处理由拥有万亿参数和超过百万Token上下文窗口的模型驱动的多智能体系统。
巴克表示,这是必要的,因为我们正在走向多智能体系统之间持续通信的现实,这意味着它们需要更快的响应速度。虽然每秒100个Token对人类来说似乎是合理的,但这样的速度对智能体系统来说会显得极其缓慢,他补充说。这就是为什么英伟达的目标是支持智能体通信高达每秒1500个Token的吞吐量。
Groq 3 LPX和Vera Rubin NVL72是该公司今天宣布的五个大型新服务器机架中的两个。该公司还推出了专门的Vera CPU机架,以及名为Bluefield-4 STX的新存储机架系统,与标准机架相比提高了存储性能,还有Spectrum-6 SPX网络机架。
这些新机架应该有助于英伟达继续扩大其数据中心足迹并在对更强大计算性能需求持续增长的时期增加收入。在2026财年,英伟达的数据中心收入飙升至1935亿美元,较前一年的1162亿美元大幅增长。随着亚马逊网络服务、谷歌、微软和Meta平台等超大规模云提供商今年计划总共投入6500亿美元用于数据中心建设,英伟达正在尽其所能争取这块巨大蛋糕的份额。
Q&A
Q1:Groq 3语言处理单元有什么特殊之处?
A:Groq 3是英伟达收购Groq公司技术后推出的专用推理芯片,专注于运行AI模型而非训练。它的内存速度比GPU快得多,专门为低延迟工作负载和智能体系统设计,能够支持万亿参数模型和百万Token上下文处理。
Q2:Groq 3与英伟达GPU相比有什么优势?
A:虽然英伟达GPU提供更大内存,但Groq 3的内存速度要快得多。它作为Rubin GPU的协处理器,专门优化推理性能,两者结合可提供每兆瓦功率35倍的吞吐量提升,特别适合需要快速响应的多智能体系统通信。
Q3:为什么英伟达要推出专门的推理芯片?
A:因为多智能体系统需要持续快速通信,每秒100个Token的速度对智能体来说太慢。英伟达的目标是支持智能体通信达到每秒1500个Token的吞吐量,这需要专门的推理优化硬件来实现低延迟、高响应的处理能力。