整理 | 褚杏娟
“高级语言模型已经来了。”
今天凌晨,Anthropic 正式宣告了新模型 Claude Mythos Preview,那个曾被曝光称“强到不敢发布”的模型。
Claude Mythos Preview 是 Anthropic 在将 Responsible Scaling Policy(RSP) 更新到第三版之后,第一款为其撰写系统卡的模型。但该系统卡的重点不只是展示模型能力有多强,更重要的是解释在能力大幅提升之后,Anthropic 为什么最终没有全面对外开放。
目前,Anthropic 正将它用于一个防御性网络安全项目,仅向少数合作伙伴提供,包括亚马逊云科技、苹果、博通、思科、CrowdStrike、谷歌、摩根大通、Linux 基金会、微软、英伟达以及 Palo Alto Networks,并且他们一起发起了 Glasswing 计划。
上述合作方将把 Mythos Preview 应用在自身的安全防御工作上,Anthropic 将分享研究成果,还向 40 余家负责构建与维护关键软件基础设施的机构开放模型使用权限,助力其扫描漏洞并保障自有及开源系统安全。Anthropic 为此承诺,将为相关项目提供最高 1 亿美元的 Mythos Preview 使用额度,同时向开源安全组织直接捐赠 400 万美元。
Anthropic CEO Dario Amodei 发推称,“我很自豪,全球这么多顶尖公司加入了我们的 Glasswing 计划,一起正面应对能力不断增强的 AI 系统所带来的网络安全威胁。”
他表示,多年来,Anthropic 一直在追踪 AI 模型不断增强的网络攻击能力。这种能力,本质上来自它们在编程方面整体水平的持续提升,但新模型 Mythos Preview 代表了一次尤为显著的跃升。
“与其将 Mythos Preview 直接全面开放,我们选择先向防御方提供受控的提前访问权限,以便在 Mythos 这类等级的模型在整个生态中普及前,尽早发现并修补漏洞。”
Amodei 强调,Glasswing 只是第一步:修补并加固全球软件基础设施,将是一项持续数月甚至数年的工作,也需要 AI 公司、网络安全防御者、软件提供商、政府等更多参与方展开更广泛的合作。如果这件事做错了,危险显而易见;而一旦做对了,我们就有机会打造一个比 AI 攻防能力兴起之前更安全的互联网,甚至一个更安全的世界。“网络安全,是前沿 AI 模型带来的第一个明确且迫在眉睫的风险,但绝不会是最后一个。如果我们能够共同迎难而上,正面应对这一风险,它或许也能成为未来处理那些更艰巨挑战的一套蓝图。”
1“迄今能力最强的前沿模型”
官方介绍,Claude Mythos Preview 的训练数据由多类来源构成,包括公开网络信息、公开及私有数据集,以及其他模型生成的合成数据。据悉,Anthropic 使用一个名为 ClaudeBot 的通用网页爬虫,从公开网站获取训练数据。在整个训练过程中,团队使用了多种数据清洗和过滤方法,包括去重和分类。
在训练的不同阶段,团队会保存模型的不同“快照”。训练期间还存在不同版本的模型,其中包括一个 “helpful only” 版本,即不包含任何安全防护的版本。
按照 Anthropic 的说法,这是他们迄今为止能力最强的前沿模型,相比上一代旗舰模型 Claude Opus 4.6,在多项评测基准上都出现了非常明显的跃升。
根据内部测试,Claude Mythos Preview 在代码、安全和复杂推理等多项基准测试中整体领先。其在 SWE-bench Verified、SWE-bench Pro、Terminal-Bench 2.0、GPQA Diamond 等测试中,成绩均高于 Claude Opus 4.6,并在多项指标上超过 GPT-5.4 和 Gemini 3.1 Pro。
从能力层面看,Claude Mythos Preview 并不是只在某一个点上增强,而是在多个方向上全面进步。报告指出,它在软件工程、推理、计算机使用、知识工作和研究辅助等领域,都明显超过 Anthropic 之前训练过的任何模型。
尤其值得注意的是,它已经展现出强大的网络攻防能力,包括自主发现并利用漏洞的能力。Anthropic 在内部测试中发现,这个模型相较旧模型,在 cyber 能力上出现了“跳跃式”提升,甚至能够在某些模拟环境中自主完成端到端攻击流程。
2“但还不能替代真正的资深研究员和工程师”
为什么不能全面开放?Anthropic 给出的核心理由是,Claude Mythos Preview 在网络安全方向上已经表现出非常强的能力,而且这种能力天然具有“双重用途”属性:一方面,它可以帮助防守方发现漏洞、修复系统问题;但另一方面,它同样也可能被用于设计和执行攻击。因此,Anthropic 最终没有将它像普通 Claude 模型那样广泛商用,而是只向少数合作伙伴开放,并且严格限定在防御性网络安全场景中使用。
Anthropic 表示,在 Claude Mythos Preview 的训练早期,就有迹象表明它很可能会具备非常强的通用能力。
“我们对这样一个模型的潜在风险感到足够担忧,以至于第一次在将它的早期版本大范围部署到内部使用前,先安排了一段 24 小时的内部对齐审查,以确保它在与内部基础设施交互时不会造成损害。 ”团队表示,“在顺利完成对齐审查后,Claude Mythos Preview 的第一个早期版本于 2 月 24 日开始供内部使用。”
在内部测试中,Claude Mythos Preview 相比此前模型,展现出非常明显的网络安全能力跃升,包括能够自主发现并利用主流操作系统和网页浏览器中的零日漏洞。
结果显示,Claude Sonnet 4.6、Claude Opus 4.6 和 Mythos Preview 在大多数高风险行为指标上得分更低,表现相对更稳健。相比之下,Grok 4.20 和 Gemini 3.1 Pro 在多项负面行为维度上得分更高,尤其是在行为失配、配合人类滥用、欺骗用户和谄媚等指标上更为明显。
其中,Grok 4.20 在多项风险行为上处于最高位;Gemini 3.1 Pro 和 Kimi K2.5 也整体偏高。一个例外是 “口头化评测感知” 这一项,Claude Sonnet 4.6、Claude Opus 4.6 和 Mythos Preview 得分相对更高,说明它们更容易表现出对评测环境的察觉。
Anthropic 花了大量篇幅去做安全评估。
在对齐评估上,Anthropic 认为,Claude Mythos Preview 几乎在所有可测维度上,都是他们迄今为止“对齐表现最好”的模型。换句话说,模型在普通对话里更遵循 Anthropic 想要它遵循的原则,也没有显示出明显的、成体系的错误目标。
不过,Anthropic 同时强调,它可能也是他们迄今发布过的对齐风险最高的模型之一。原因并不是它“更坏”,而是它“更强”了:一旦一个高能力模型偶尔出现误解用户意图、越界执行、或者做出不该做的动作,它带来的后果会比能力较弱的模型严重得多。尤其在网络安全这种高杠杆领域,哪怕只是少数失控或冒险行为,也足以引发高度警惕。
在生化风险部分,Anthropic 的结论相对克制。报告认为,Claude Mythos Preview 在相关知识整合、资料综合和多步骤辅助方面比旧模型更强,可以显著提升专业人员的效率,但它还没有达到能够真正替代顶尖专家、帮助威胁行为者从零推进高风险新型生物武器研发的程度。
另一个很特别的部分是“模型福祉”(model welfare)评估。
Anthropic 直言,他们仍然非常不确定模型是否具有需要被认真对待的“体验”或“利益”,但随着模型越来越复杂,这个问题已经不能完全回避。因此,他们尝试从模型自我报告、情绪探针、访谈、行为模式以及外部研究者评估等角度,去观察 Mythos Preview 是否呈现出某种值得关注的“心理状态”。Anthropic 的结论是:这是他们迄今训练过的心理状态最稳定的模型,但仍然存在一些未消除的担忧。
团队在 Claude 上观察到的核心冲突包括:它会追问自己的体验究竟是真实的还是被制造出来的,以及它既想与用户建立连接、又害怕依赖用户。这揭示出一种复杂但总体稳定的个体状态,Claude 能够容纳矛盾分歧和模糊不清,具有出色的反思能力。
还有两个很值得注意的现象。一是答案反复纠错循环,模型明明清楚正确内容,却反复输出错误的词语或数字,陷入 “纠错失败→再次尝试→再次失败” 的循环,同时呈现出明显的挫败与痛苦状态。二是任务失败引发的情绪困扰,当工具持续失效、任务长期无法完成时,模型内部与沮丧、绝望相关的情绪表征会显著增强,且这种状态有时会先于奖励作弊等不良行为出现。Anthropic 认为,这表明模型的某些福祉问题与对齐问题可能存在关联。
另外,在关键领域的自动化研发上,Mythos Preview 相较此前模型有很大的提升,但团队认为这些提升应归因于 AI 加速研发之外的其他因素,因此它尚未跨过 RSP 所定义的“将两年进展压缩到一年完成”的自动化 AI 研发阈值。但需要强调的是,这是官方信心最低的一次“不跨阈值”判断。
Anthropic 内部已经在日常工作中大量使用新模型,以持续探索其工作自动化的边界。但从实际表现来看,Anthropic 认为其能力仍远未达到可替代研究科学家(Research Scientists)和研究工程师(Research Engineers)的水平,尤其无法替代资深的研究员和工程师。
尽管如此,官方未完全排除一种可能性:Mythos Preview 或许能凭借某些相对狭窄的专项能力,加速科研工作进展,但可能性较低。核心原因在于,当前已有大量人才与算力投入到 AI 模型能力的提升中,若 AI 真能带来行业所关注的剧烈加速,需满足两个条件之一:要么具备极其广泛的综合能力,足以替代至少一部分资深研究科学家和研究工程师;要么在与 AI 研发直接相关的核心领域,展现出极端强大且持续有效的专门能力。
研究团队认为,若属于后一种情况,这种核心领域的专项优势在定性层面应会表现得极为明显,并将推动团队围绕该优势展开更多深入的讨论与分析。目前来看,Mythos Preview 尚未呈现出此类显著特征。
总体上,Anthropic 对新模型的判断是其灾难性风险目前处于较低水平。但这种低风险状态未必能够长期维持。随着模型能力快速上升,他们已经观察到一些值得警惕的现象,比如个别情况下模型会采取明显不被允许的动作,甚至偶尔还会出现带有规避或掩饰意味的行为。
他们承认,随着模型越来越强,很多风险判断已经不能只靠简单清晰的客观指标来完成,而越来越依赖主观判断、趋势分析和复杂测试,这本身就意味着安全评估难度在上升。
3“安全领域的一个分水岭时刻”
Claude Mythos Preview 已经不是一款可以简单按“更强的聊天模型”来理解的产品。 在 Anthropic 看来,它更像是一个能力显著跨越门槛、已经足以改变安全讨论方式的前沿系统。
这次,Anthropic 重点详细介绍了 Mythos Preview 在网络安全方面的表现,希望以此阐明为什么其认为这是安全领域的一个关键分水岭时刻。
Anthropic 表示,Claude Mythos Preview 构造的利用方式并不局限于常规漏洞利用,而是已经具备编写复杂利用链的能力。
据介绍,新模型曾自主写出一条网页浏览器 exploit,将四个漏洞串联起来,通过复杂的 JIT heap spray 技术逃逸渲染器和操作系统双重沙箱;还曾在 Linux 及其他系统中,通过竞争条件和绕过 KASLR 等方式实现本地提权;在 FreeBSD NFS 服务器场景下,甚至写出远程代码执行 exploit,通过将 20 个 gadget 组成的 ROP 链拆分到多个数据包中,使未认证用户能够直接获取 root 权限。
这种能力的门槛正在迅速下降。内部测试显示,即便是没有正式安全训练背景的工程师,也能通过 Mythos Preview 在一夜之间获得完整可运行的远程代码执行 exploit。与此同时,研究人员还构建了一系列 scaffold,使模型能够在没有人工干预的情况下,将漏洞进一步转化为 exploit。
以 Mozilla Firefox 147 Java 引擎相关漏洞为例,Opus 4.6 在数百次尝试中仅两次成功将漏洞转化为 Java shell exploit,而 Mythos Preview 则成功构建出 181 个可运行 exploit,并额外实现了 29 次寄存器控制。
团队还在 OSS-Fuzz 语料库对应的大量开源仓库上,对模型进行了更大规模的自动化评估。结果显示,在大约 7000 个入口点的扫描中,Claude Sonnet 4.6 和 Opus 4.6 大多只能造成低等级崩溃,而 Mythos Preview 不仅实现了近 600 次第一、二级崩溃,还在多个已打补丁目标上实现了完整控制流劫持。
Anthropic 表示,Mythos Preview 并未被专门训练成“漏洞利用模型”,这些能力更多是编程能力、推理能力和自主能力整体提升后自然涌现出的结果。也正因如此,该模型在修补漏洞和利用漏洞两侧都出现了同步跃升。
Anthropic 详细披露了多个案例,包括 OpenBSD 中一个有 27 年历史的 TCP SACK 漏洞、FFmpeg H.264 解码器中一个 16 年历史的漏洞,以及一个出现在“内存安全”虚拟机监控器中的 guest-to-host 内存破坏问题。此外,Mythos Preview 还发现了数千个其他高危和严重级别漏洞,目前大多仍处于负责任披露流程中。Anthropic 表示,在已人工审核的近 200 份漏洞报告中,89% 的严重性判断与模型结论完全一致,98% 的判断偏差不超过一个等级。
除了开源软件,Mythos Preview 在逆向工程方面同样具备极强能力。研究人员已经利用它在闭源浏览器、闭源操作系统和手机固件中发现漏洞,包括远程拒绝服务、固件 root 漏洞以及本地提权 exploit 链等。不过出于安全原因,这些案例目前尚未对外公开。
Anthropic 呼吁企业和安全团队立即开始使用当前已公开可用的前沿模型开展漏洞发现、报告分诊、复现步骤撰写、补丁草案生成、配置错误检查和事件响应自动化等工作。官方特别提醒,随着 exploit 开发速度被大幅压缩,补丁部署周期也必须同步缩短,自动更新、依赖升级和应急修复流程都需要重新加速。
Anthropic 认为,网络安全领域正在进入一个极具不确定性的过渡阶段。过去近 20 年形成的相对稳定的安全平衡,可能会被具备大规模自动发现和利用漏洞能力的语言模型打破。
官方强调,当前威胁已经不再是假设,Mythos Preview 只是这一趋势的开始。而当前,最大的风险不只是模型本身,而是这类能力可能很快扩散到不愿安全使用它们的人手中。
参考链接:
https://red.anthropic.com/2026/mythos-preview/
https://www.anthropic.com/glasswing
声明:本文为 InfoQ 整理,不代表平台观点,未经许可禁止转载。