刚刚,马斯克新模型撞车Claude,口碑崩了
创始人
2026-02-18 14:20:42

完成 300 亿美元融资后,Anthropic 交出了第一份 AI 答卷。就在刚刚,Claude Sonnet 4.6 正式发布,定位是「史上最强 Sonnet」。

编程、计算机操作、长上下文推理、智能体规划,全面升级。价格没变,还是每百万 token 3 美元输入/15 美元输出,但性能直接逼近 Opus 级别。

在与 Opus 4.5 的对比测试里,用户有 59% 的时间更偏好 Sonnet 4.6。理由也很实在:过度工程化更少、幻觉更少、多步骤任务执行更稳。

💻 计算机操作能力是这次升级的重头戏。

在 OSWorld 基准测试上,Sonnet 系列过去 16 个月持续进步,现在处理复杂电子表格、填写多步骤网页表单已接近人类水平。

这个能力戳中的是一个真实痛点:很多企业的老旧软件没有现代 API 接口,过去只能专门开发连接器,现在模型直接像人一样看屏幕、点鼠标就行了,省掉了一大截工程成本。

📊 顺带一提,Excel 中的 Claude 插件这次也同步升级,新增了 MCP 连接器支持,对金融从业者来说,这个更新很实用。

Sonnet 4.6 另一个亮点是支持 100 万 token 超大上下文,足以在一次请求里塞进完整代码库、数十篇论文或一堆合同。

在 Vending-Bench Arena 这个模拟企业运营的评估里,Sonnet 4.6 摸索出一套有意思的策略:前期大举投资产能,最后阶段猛转盈利导向,靠这个转折时机甩开其他模型。支撑这套打法的,正是它的长期规划能力。

对普通用户来说,Free 和 Pro 方案的默认模型已经切换为 Sonnet 4.6,claude.ai 和 Claude Cowork 同步更新。

开发者方面,API 模型标识是 claude-sonnet-4-6,支持自适应思考、扩展思考,上下文压缩功能可以在对话快撑爆上下文时自动总结旧内容,省 token 又省心。

✊ 而就在 Sonnet 4.6 发布的同期,马斯克旗下 xAI 的 Grok 4.20 测试版也正式上线了 grok.com。

Grok 4.20 支持并行调度 4 个专业智能体——Grok、Harper、Benjamin、Lucas——协同执行任务。然而整体口碑两极分化严重,且过往预期拔得太高,导致不少用户期望落空,差评偏多。

🔥 后续马斯克罕见连发多条推文灭火「救场」。他解释称,目前的 Grok 4.20 只是参数量 500B 的小型基础模型,尚处公测阶段。他还强调,Grok 4.20 的底层架构具备每周自我迭代的能力,递归式智能增长空间很大。

按他的说法,公测结束后,Grok 4.20 的智能和速度将比 Grok 4 提升约一个数量级。但这个承诺能否兑现,只能说拭目以待吧。

相关内容

热门资讯

《识质存在》MTC均分87 黑... 作为卡普空的全新IP,小萝莉搭配大叔的科幻动作射击游戏《识质存在》媒体评测解禁。根据Metacrit...
原创 歧... 《歧路旅人大陆的霸者》国服4月第3周新角色出炉,商人猫利克复刻,对于这个角色G哥印象深刻,这个角色赖...
B社回应PS5版《星空》频繁崩... IT之家 4 月 14 日消息,B 社游戏工作室(Bethesda)在社交媒体上发布公告,回应了大量...
《神泣:纷争》4.15公测上线... 作为经典端游《神泣》的正版手游)——《神泣:纷争》明天(4月15日)就要公测啦! 新手入坑最纠结的莫...
《深海迷航2》Steam与微软... 《深海迷航2》开发商Unknown Worlds创始人与发行商KRAFTON(魁匠团)的诉讼风波已经...