20万张GPU“烧出”地表最强 AI?马斯克的Grok 3超1400分登顶排行榜,OpenAI联合创始人:略强于 DeepSeek-R1
创始人
2025-02-19 08:21:54
0

每经记者 岳楚鹏 每经编辑 兰素英

一度“跳票”的AI模型Grok 3终于迎来正式发布。

当地时间2月17日晚,马斯克旗下AI公司xAI发布了Grok 3及其精简版Grok 3 mini。发布会采用视频直播形式,观看人数超过100万人。

Grok 3是xAI对OpenAI的o3-mini和DeepSeek的R1等模型的回应,它可以分析图像和回答问题,并为X上的许多功能提供支持。前天马斯克就在X上造势称,Grok 3是“地球上最聪明的人工智能”。

图片来源:直播截图

在发布会上,马斯克和三位xAI的工程师一起演示了Grok 3的各种功能。马斯克在直播演示中声称,Grok 3在包括AIME(测试模式在数学问题上的表现)和GPQA(测试模型在博士级物理、生物和化学问题上的表现)在内的基准测试中击败了所有的市面上所有模型。

马斯克似乎也并非在打“诳语”。从AI基准测试开放平台lmarena.ai放出的截图看,测试数据显示,早期版本的Grok 3(代号chocolate)在Arena排行榜上拿下了第一,吊打其他主流AI大模型,并且,Grok 3还是第一个获得超过1400分的模型。

然而,有用户在观看发布会后指出,Grok 3给出的关于《流放之路2》游戏的结论错误频出,另有用户测试发现,Grok 3在经典的多边形小球编程问题上也出现了错误。

OpenAI联合创始人Andrej Karpathy也在发布会后放出了自己的感想。他认为,就目前短暂上手的体验而言,Grok 3 + Thinking感觉与ChatGPT的o1-pro差不多,略好于DeepSeek-R1和谷歌的Gemini 2.0 Flash Thinking。

拿下Arena榜单第一!Grok 3是首个超1400分的模型

早在2024年7月,马斯克在与乔丹·彼得森的访谈节目时就表示,Grok 3预计将在2024年12月底发布。但到了年底,这个承诺并没有兑现,一度有人怀疑这只不过是马斯克无数个大饼中的其中一个,Grok 3或许遥遥无期。

不过,在上周的迪拜峰会上,马斯克却突然宣布,xAI将在一到两周内推出新一代AI模型Grok 3,而这个模型的强大程度,用他的话说,“强到让人感到害怕”。马斯克甚至预言这可能是“最后一次有AI比Grok更优秀”。

从xAI在直播中放出的基准测试结果来看,Grok 3在数学、科学和编程领域的表现大幅领先于市面上其他主流的AI模型。

在数学能力测试(AIME'24)中,Grok 3获得52分,明显超过DeepSeek-V3的39分和GPT-4o的9分;在科学知识评估(GPQA)中,Grok 3以75分的成绩领先,而DeepSeek-V3和GPT-4o的得分分别为65分和50分;在编程能力测试(LCB Oct-Feb)中,Grok 3同样以57分超过DeepSeek-V3的36分合GPT-4o的34分。

图片来源:xAI

在推理模型的比较中,Grok 3 Reasoning Beta也战胜了OpenAI的o3-mini、DeepSeek的R1和Gemini-2 Flash Thinking等推理模型。不过,演示团队表示允许Grok去进行更长时间的思考和推理。

图片来源:xAI

AI基准测试开放平台lmarena.ai也爆出猛料,最新测试数据显示,早期版本的Grok 3(代号chocolate)在经过约8000次投票后,在Arena排行榜上拿下第一。

图片来源:X

lmarena.ai称,Grok 3是第一个突破了1400分的模型,并且在所有分类中都排名第一,而这一里程碑以后会越来约难以实现。

图片来源:X

三个月数据中心容量翻倍至20万块GPU

和DeepSeek从技术层面对模型进行改进不同,马斯克的新模型还是属于“大力出奇迹”。

此前有新闻报道,马斯克组建了一个配有十万块H100 GPU的、世界上最大的超级计算机集群Colossus来帮助训练Grok模型。在此次直播中,马斯克透露,实际上,到训练进行到92天时,集群的规模已经扩大到了20万块GPU。

图片来源:xAI

也难怪有人说Grok 3是终极的Scaling Law测试了,是靠吞噬算力训练起来的怪物。

演示团队为了使大家更直观地了解Grok 3的强大之处,还演示了物理学和游戏的例子。

首先,要求Grok 3生成一段代码绘制从地球发射火箭,降落在火星,然后在下一个发射窗口返回地球的三维动画图表。这一任务涉及大量的数学和物理计算,极具挑战性。Grok 3很快生成了完整的动画,研究人员在检查后表示结果完全正确。

图片来源:xAI

之后,演示团队又要求Grok编写一个结合俄罗斯方块和宝石迷城的游戏,Grok也顺利完成了任务。

除了基本的模型能力之外,Grok 3也具备智能体功能。

xAI为Grok 3开发了一个类似于OpenAI的DeepSearch智能体。DeepSearch可以对互联网进行全面搜索,并为用户提供详尽的整合报告。马斯克表示,这可以省下你几十次谷歌搜索的时间,而公司将得到几十亿美元的回报。

OpenAI 联合创始人:Grok 3 + Thinking与o1-pro差不多,略好于DeepSeek-R1

在演示团队的展示中,Grok 3似乎无所不能,拳打OpenAI,脚踢Deepseek,已然站上世界AI模型的巅峰,但有些观看了演示和迫不及待体验了Grok 3的用户却发现了一些奇怪的问题。

在发布会中,为了演示DeepSearch功能,演示团队就马斯克最近在玩的游戏《流放之路2》询问了一个相关问题。有游戏博主看后表示,Grok 3给出的游戏结论错误频出,感觉不如马斯克宣称的那么聪明。

图片来源:哔哩哔哩

有专门直播该游戏的游戏博主也对《每日经济新闻》记者表示,Grok 3给出的答案没一个是对的,不如GPT。

另外,有用户体验了Grok 3的编程功能,随后也表示,Grok 3的编程能力并不是很强大。在经典的多边形小球编程问题上,Grok 3出现了错误。

图片来源:X

OpenAI联合创始人Andrej Karpathy作为为数不多的提前拿到测试资格的人,也在发布会后放出了自己的感想。他认为,就目前短暂上手的体验而言,Grok 3 + Thinking感觉与ChatGPT的o1-pro差不多,略好于DeepSeek-R1和谷歌的Gemini 2.0 Flash Thinking。

Karpathy表示,Grok 3显然有一个最先进的思维模型,并且在卡坦岛定居者问题上做得很好。很少有模型能够可靠做到这一点。顶级的OpenAI推理模型(如o1-pro,月订阅费为200美元)也能做到这一点,但DeepSeek-R1、Gemini 2.0 Flash Thinking和Claude的所有模型都没办法做到。

但Grok 3并没有解决“表情符号之谜”问题,即使以Rust代码的形式给出了有关如何解码它的强烈提示。而在这点上,Karpathy称其见过的最大进展来自DeepSeek-R1,它曾经部分解码了消息。

此外,Karpathy认为,DeepSearch大约等于Perplexity DeepResearch的产品,但还没有达到OpenAI最近发布的“深度研究”的水平。

不过,他同时也指出,考虑到xAI团队在大约在1年前从头开始,这是相当令人难以置信的,达到最先进领域的时间跨度是前所未有的。目前得出完整结论还为时过早,需要在在接下来的几天/几周内等待更多的评估。

相关内容

热门资讯

游戏指南!牛牛房卡价格,美猴王... 4vjaE在iPhone16Pro正式发布之前,当前苹果手机中,iPhone14ProMax依然是最...
游戏知识!牛牛房卡价格,十人牛... EW有消息表示,苹果已经在研发Face ID技术,也就是屏下相机技术,想要打造真全面屏手机,这一点还...
游戏测评!斗牛app批发价,斗... nio另外根据苹果官方提供的信息显示,这一代 iPhone 15系列将会有两款新机可供选择,分别是 ...
游戏介绍!金花房卡哪里有卖,正... GMTsO并且,据悉该机内置了5560mAh电池和150W超级闪充技术,同时最高内置了18G运存。另...
游戏介绍!牛牛房卡怎么获得,微... us8jDFt随着智能手机的发展,国产手机取得的进步是大家都有目共睹的,同时品质和体验的不断提升,使...
评测!牛牛房卡在哪里买便宜,微... WFOjTnkx因此整个手机看起来非常的好看。在参数方面,据悉该机采用了5000万像素大底主摄+32...
游戏介绍!大厅房卡哪里有卖,牛... XPD0gSD1并且,这款realme GT3采用了一块6.79英寸的三星新一代AMOLED屏幕,屏...
游戏知识!金花房卡平台购买联系... GnFu毕竟有热度的消息,大家都愿意去挖。也有一些推特博主,也会爆料苹果的新机。所以新机还在孵化中,...
游戏知识!微信金花房卡到哪里买... d虽然距离传感器的位置改变,不过对于iPhone15系列手机来说灵动岛几乎没有变化,这种调整对灵动岛...
游戏介绍!正规房卡出售平台,微... 69DpiiPhone 14 Pro正面采用了居中感叹号形挖孔,内置True Depth摄像头模块,...
游戏推荐斗牛房卡价格,斗牛房卡... fAiwWGiE关键是苹果手机在市场中立足了如此久的时间,按理来说一些功能或者是规划都非常详细,然而...
游戏推荐斗牛房卡批发价,斗牛a... SjGujwJJOPPO原来的系统确实做得一般,但是近几年已经有了很大的改善,流畅了很多,比如OPP...
游戏介绍!牛牛卖房卡多少钱一张... FiX苹果手机目前发展的情况并不是特别好,一方面是有消息称iOS16可能不会带来特别多的改变,另一方...
游戏知识!微信怎么开斗牛房间链... McJ不仅影像能力再度突破,还都适配了鸿蒙OS3.1,甚至原本单向的北斗卫星消息如今也升级为了双向,...
淮安凡之晟远大取得便于安装的预... 金融界2025年2月20日消息,国家知识产权局信息显示,淮安凡之晟远大建筑工业有限公司取得一项名为“...
游戏介绍!斗牛房卡购买联系方式... OVKU49和iPhone13相比少了mini版本,毕竟小屏手机在市场的销量确实并不怎么好,为了适应...
游戏知识!金花房卡全国代理,牛... fGTOPPO原来的系统确实做得一般,但是近几年已经有了很大的改善,流畅了很多,比如OPPO Ren...
评测!金花房卡怎么买游戏,牛牛... zOeHGi20W有线快充速度的确比安卓手机慢,但回想一下,我们有几次充电是将手机电量完全耗尽的?基...
游戏推荐微信金花房卡充值,金花... H苹果手机虽然备受消费者的欢迎,同时也搭载的是自研的iOS系统,但是在很多方面,苹果也借鉴和参考了安...
游戏推荐牛牛房卡哪家便宜,牛牛... NfsEQ对于 iPhone 15系列手机来说,它在外观上进行了小幅调整,外观设计依旧是刘海屏,但在...