号称“地球上最聪明的AI”,Grok 3竟答不出9.11和9.9哪个大
创始人
2025-02-19 13:21:47

IT之家 2 月 19 日消息,昨天马斯克及其 xAI 团队在直播中正式发布了 Grok 3,此前马斯克通过持续的预热宣传,将外界对 Grok3 的期待值推向了前所未有的高度。马斯克称 Grok 3 为,然而其实际表现似乎对不起这个名号。

IT之家注意到,在发布会上,马斯克宣称 Grok 3 在数学、科学与编程的基准测试中超越了所有主流模型,并计划将其应用于 SpaceX 的火星任务计算,甚至预测未来三年内将实现诺贝尔奖级别的突破。

但 Grok 3 的实际测试表现却让人大跌眼镜。发布后,一些媒体测试了最新的 Beta 版 Grok 3,并提出了那个经典的用来刁难大模型的问题:“9.11 与 9.9 哪个大?”遗憾的是,号称目前最聪明的 Grok 3,仍然无法正确回答这个问题,被网友戏称为“天才不愿意回答简单问题”。

此外,在 xAI 发布会直播中,在分析游戏《流放之路 2》的职业与升华效果时,Grok 3 也给出了大量错误答案,并且马斯克也没有看出这些明显的错误。

尽管在官方 PPT 中,Grok3 在大模型竞技场 Chatbot Arena 中看似“遥遥领先”,但实际上其与 DeepSeek R1 和 GPT4.0 的差距仅为 1% 到 2%。

马斯克在发布会上透露,Grok 3 使用了超过 20 万张 H100 芯片,总训练小时数达到两亿小时。作为对比,DeepSeek V3 仅使用 2000 张 H800 芯片训练两个月,其性能却与 Grok 3 相差无几。这表明,随着模型规模的不断扩大,性能提升的边际效应已经显现。

值得一提的是,马斯克在社交媒体上表示,当前的 Grok 3 仅是测试版,完整版将在未来几个月推出,并邀请用户反馈使用问题。

相关内容

热门资讯

原创 6... 最近大家有没有发现,我们刚把手里的4G手机换成5G没几年,甚至很多人的5G套餐还没捂热乎,科技圈突然...
酷我音乐亮相2026深圳国际耳... 5月16日,2026深圳国际耳机展在福田会展中心正式启动,贴合便携音频系统领域发展趋势,云集300多...
神舟二十三号近日发射,来自港澳... 神舟二十三号船箭组合体已转运至发射区,近日将择机发射。 5月16日上午,在酒泉卫星发射中心,承载着长...
小王争夺战!JDG与AL谁将在... 2026年LPL第二赛段组内赛赛程步入尾声,5月17日将迎来至关重要的收官对决。当日两场重磅赛事依次...
原创 三... 在王者荣耀中,目前有三款传说皮肤是已经确定的,但具体上线时间还没有确定。不过有两款传说皮肤的上架时间...