新智元报道
编辑:艾伦 好困
【新智元导读】Anthropic 正式发布 Claude Opus 4.7,核心升级落在复杂任务执行、高清视觉理解和更稳的长链路工作流上。对普通用户来说,最直接的变化是更听指令、更会看图、产出更接近成品,同时也要注意Token也会烧得更快了。
就在刚刚,Anthropic 正式发布 Claude Opus 4.7,并将它定义为当前可广泛使用的最强 Claude 模型。
性能不如此前曝光的新一代Claude Mythos Preview那么炸裂,但比普通用户能真正用到的Opus 4.6强了太多,除了Agentic搜索能力略有下降外,实现了全面碾压!
官方给出的本次升级的关键词:复杂任务、更强视觉、更稳的长链路执行,以及更少需要人工参与。
只要还在用大模型写文档、读截图、做演示、整理材料,Opus 4.7 带来的体验变化,很难绕开。
本次更新最大的亮点,是Opus 4.7的视觉能力大幅提升,在测试中从Opus 4.6约50%的分数,直接飙升到接近满分!
而这,补上了AI目前最大的视觉短板,或许已经不知不觉地迈过了替代人类工作的那道最重要的槛!
GPT-5.4 Thinking是这样评价它的对手Claude Opus 4.7发布给打工人带来的影响的:
本次升级的关键
在于复杂任务的完成度
Anthropic 把 Opus 4.7 的核心升级点放在了高级软件工程和长时间任务执行上。
用户已经可以把过去需要密切监督的高难度编码工作交给它处理,它会更严格地执行指令,也会在回报结果前主动想办法验证输出。
API 发布说明里,Anthropic 也把它称为当前最强的通用可用模型,面向复杂推理和代理式编码场景。
大模型竞争的焦点,正在从答得像不像,转到做得完不完。只会写一段漂亮答案,已经不够了。
能不能把一份长文档改干净,能不能把一套资料串起来做成可交付物,能不能持续几十分钟甚至更久不跑偏,这才会决定它在日常工作里能不能真的替人扛起一片天。
这能够从 Opus 4.7 的官方发布重点里直接看出来。
纯编程只是开胃菜
SWE-bench Multilingual 测的是模型修复真实 GitHub issue 的能力,覆盖多种编程语言。
Opus 4.7 拿 80.5%,Opus 4.6 拿 77.8%,涨 2.7 个百分点。
单看这个数,似乎只是一次常规迭代。但同一张图右边那组数据更有意思,后面回头讲。
1M token 里的长任务
GraphWalks 是 OpenAI 做的长上下文基准,把一张有向图用边列表塞满 1M token 上下文,让模型做图遍历。
两种考法:一种是 Parents,给一个节点让模型找出所有直接指向它的父节点;另一种是 BFS 广度优先搜索,从起点出发一路找到特定深度可达的节点,对 Agent 跑多步骤长任务是硬指标。
在 Parents 1M 这趴,Opus 4.7 从 71.1% 提到 75.1%,4 个百分点的常规改进。
而到了 BFS 1M,Opus 4.7 则从 41.2% 一口气干到 58.6%,拉开 17.4 个百分点。
换个场景再看。
Vending-Bench 2 让模型模拟经营一台自动售货机,测长时间工作流里的决策连贯性。
Opus 4.6 最终余额 8,018 美元,Opus 4.7 做到 10,937 美元。
同一台售货机,同一个时间窗口,Opus 4.7 多挣了 36%。
Agent 的眼睛换了代
ScreenSpot-Pro 测的是 Agent 的屏幕定位能力。
给模型一张 VSCode、Photoshop、AutoCAD 这类专业软件的高分辨率桌面截图加一条自然语言指令,让它定位到具体的 UI 元素。在高分辨率屏幕里,目标 UI 元素往往只占整张图的 0.07%,极考验精细视觉。
同样低分辨率不带工具,Opus 4.6 拿 57.7%,Opus 4.7 拿 69.0%,拉开 11.3 个百分点。
切到高分辨率,Opus 4.7 不带工具就达到了 79.5%。叠加工具调用,跑分直接来到 87.6%。
视觉能力在一些测试(如XBOW的基准测试)中,Opus 4.7相比Opus 4.6得分直接翻倍,从54.5%跃升到接近满分98.5!
这造就了Opus 4.7相比4.6在计算机使用(Computer Use)能力的天壤之别!
回到前面留的那张编程图。
SWE-bench Multimodal 这项,Anthropic 是用内部实现的测试 harness 跑的。
测的是前端 JS 软件修 bug,任务里带着 UI 截图、效果图一类的视觉素材,模型要结合图片和代码一起干活。
从 Opus 4.6 的 27.1% 做到 Opus 4.7 的 34.5%,一口气提了 7.4 个百分点。
Opus 4.7 的编程升级,重点是让模型看懂屏幕。眼睛换代了,脑子才能干更复杂的活。
GPT-5.4 和 Gemini 3.1 Pro 都没扛住
前面全是自比,现在来看看跟老对手们怎么打。
GDPval-AA 是 Artificial Analysis 基于 OpenAI GDPval 数据集做的评估。
它覆盖了 44 种知识工作职业、9 大 GDP 核心行业,任务来自资深职业人士(平均 14 年经验)的真实交付物。AA 版本让模型在 agent loop 里干活,用盲测两两对比打 Elo 分。
Opus 4.7 拿 1753,Opus 4.6 拿 1619,GPT-5.4 拿 1674,Gemini 3.1 Pro 拿 1314。
Opus 4.7 高出 GPT-5.4 79 分,高出 Gemini 3.1 Pro 439 分。
OfficeQA Pro 是 Databricks 做的企业级推理基准,语料是近 100 年的美国财政部公报,8.9 万页 PDF、2600 万个数字。模型要精准找到文档、解析表格和正文、跨文档做分析推理。
在这里,Opus 4.7 的跑分高达 80.6%,而 Opus 4.6 只有 57.1%,GPT-5.4 和 Gemini 3.1 Pro 更低,分别是 51.1%和 42.9%。
换句话说,Opus 4.7 是 GPT-5.4 的 1.6 倍,是 Gemini 3.1 Pro 的 1.9 倍。
跃升最炸的是生物学
翻到最后一张,Structural Biology,生物分子推理。
Opus 4.6 只有 30.9%。而Opus 4.7 直接冲到了 74.0%。
一次版本迭代,从三成到七成半,2.4 倍。
堪称是所有 benchmark 里跃升最夸张的一项。
普通用户最先感受到的
是三大变化
第一个变化,指令遵循能力更强了。
Anthropic 写到,Opus 4.7 的指令遵循能力大幅提升,过去很多模型会松散理解、漏掉细节,Opus 4.7 则更倾向于逐条照着执行。
代价是,旧提示词有时会出现意料之外的结果,用户需要重新调整写法。
对普通用户来说,这会直接减少提示词玄学,写需求、定格式、列限制条件,会更有用。
第二种变化,Claude 看图会更细。
Opus 4.7 支持长边最高 2576 像素的图像输入,大约 375 万像素,超过此前 Claude 模型的三倍。
官方专门点了几个场景,密集截图、复杂图表、精细结构图、需要像素级参考的任务。
第三种变化,输出结果会更容易接近可交付的成品。
Anthropic 提到,Opus 4.7 在界面、幻灯片、文档这些专业任务上更有审美,也更有创造性。
它在基于文件系统的记忆上做得更好,能跨多轮、多会话记住关键备注,减少重复交代背景。
对经常拿模型润色材料、整理项目、反复改同一份内容的人来说,这种提升会比跑分的提升来得更直观。
这次发布
安全也被摆在了同样重要的位置
Anthropic 在一周前刚刚公布 Project Glasswing,专门谈到了前沿模型在网络安全方向的风险与收益。
Opus 4.7 成了这套新思路下第一个公开部署的模型,官方强调,它的网络安全能力弱于 Mythos Preview,并且上线时带有自动检测和拦截高风险网络安全请求的护栏。
合规安全研究人员则可以申请加入新的 Cyber Verification Program。
从安全评估看,Opus 4.7 与 Opus 4.6 的整体安全画像相近,在诚实性和抵抗恶意提示词注入上更强,在某些细项上也存在小幅走弱。
Anthropic 的结论是,它整体上「较为可靠且值得信任」,距离理想状态还有空间。
这说明,Anthropic 没有把发布包装成一次毫无代价的全面跃升。
谁会立刻受益
谁又要多留一个心眼
最先受益的人群很清楚,开发者、分析师、法务、研究人员,以及所有高频处理文档、表格、演示材料的人。
官方早期测试反馈里,很多合作方都提到同样几件事,复杂工作流更稳了,错误恢复更强了,文档推理、代码审查、数据分析、长上下文任务都有明显提升。
需要多留一个心眼的地方也已经写在官方说明里。
更高分辨率图像会烧掉更多 Token,用户用不到这些细节时,最好先压缩图片。
Opus 4.7 还换了分词器(Tokenizer),同样的输入可能会多出大约 1.0 到 1.35 倍 Token,高 Effort 下输出 Token 也会增加。
对直接在 Claude 应用里聊天的普通用户,这更多会体现在额度和响应体验上。
对使用龙虾和Hermes Agent这类API的用户和团队客户,这就是实打实的成本变量。
好在价格方面,Opus 4.7和4.6与4.5保持了一致,没有涨价,但这个价格本身其实就已经足够昂贵了...
Anthropic想传递的信号
已经很清楚了
从 Opus 4.7 这次发布能看出,Anthropic 眼下押注的方向已经很明确,长任务执行、视觉理解、工具协同、少监督交付,这几项能力正在被打包成下一阶段的大模型主战场。
官方同步上线的 Xhigh Effort(思考程度介于 high 和 max 中间)、Task Nudgets 公测,以及 Claude Code 里的 /ultrareview,也都围着这个方向在转。
下一篇:俞敏洪要卖保健品了