研究人员称，Anthropic公司令人震惊的Mythos研究结果可通过现成的AI软件重现。

04-18

本文为机器翻译

展示原文

本月初，Anthropic公司发布Claude Mythos模型时，将其限制在一个经过严格审查的科技巨头联盟内部，并声称该模型对公众来说过于危险。财政部长斯科特·贝森特和美联储主席杰罗姆·鲍威尔随即召集华尔街首席执行官们召开紧急会议。“ 漏洞末日”（vulnpocalypse）一词再次在安全领域出现。

现在，一组研究人员让这种说法变得更加复杂。

Vidoc Security 使用了 Anthropic 自己打过补丁的公开示例，并尝试在名为 opencode 的开源编码代理中使用 GPT-5.4 和 Claude Opus 4.6 重现这些示例。他们没有使用 Glasswing 邀请，没有访问私有 API，也没有使用 Anthropic 的内部技术栈。

“我们使用公开模型，而非Anthropic的私有技术栈，在开源代码中复现了Mythos的发现，”参与实验的研究人员之一Dawid Moczadło在发表结果后在X上写道。“解读Anthropic的Mythos发布，不应是‘某个实验室拥有一个神奇的模型’，而是：漏洞发现的经济模式正在发生变化。”

他们针对的案例与 Anthropic 在其公开材料中重点介绍的案例相同：服务器文件共享协议、以安全为中心的操作系统的网络堆栈、几乎每个媒体平台中嵌入的视频处理软件，以及用于验证网络上数字身份的两个加密库。

GPT-5.4 和 Claude Opus 4.6 在三次运行中均复现了两个 bug。Claude Opus 4.6 还连续三次独立地重新发现了 OpenBSD 中的一个 bug，而 GPT-5.4 在该 bug 上则一无所获。一些 bug（一个涉及用于播放视频的 FFmpeg 库，另一个涉及使用 wolfSSL 处理数字签名）只部分复现——这意味着模型找到了正确的代码表面，但未能找到确切的根本原因。

每次扫描的成本都低于每个文件 30 美元，这意味着研究人员能够以不到 30 美元的成本找到与 Anthropic 相同的漏洞。

“人工智能模型已经足够好，可以缩小搜索范围，发现真正的线索，有时甚至可以从经过实战检验的代码中恢复完整的根本原因，”Moczadło 在 X 上说道。

他们使用的工作流程并非一次性提示，而是与 Anthropic 公开描述的流程如出一辙：给模型提供代码库，让它进行探索，并行尝试，并筛选信号。Vidoc 团队使用开源工具构建了相同的架构。一个规划代理将每个文件分割成多个块。一个独立的检测代理对每个块运行，然后检查代码库中的其他文件以确认或排除检测结果。

每个检测提示中的行范围——例如，“关注第 1158-1215 行”——并非研究人员手动选择，而是先前规划步骤的输出结果。博文明确指出：“我们希望明确这一点，因为分块策略会影响每个检测代理看到的内容，我们不希望让工作流程看起来比实际情况更加人工化。”

这项研究并未声称公开模型在所有方面都与 Mythos 的模型完全一致。Anthropic 的模型不仅发现了 FreeBSD 的漏洞，还构建了一个可行的攻击蓝图，揭示了攻击者如何通过多个网络数据包将代码片段串联起来，从而远程完全控制机器。Vidoc 的模型发现了漏洞，但并未构建攻击武器。真正的差距就在于此：不在于发现漏洞，而在于如何精确地利用漏洞。

但 Moczadło 的论点并非公共模型同样强大，而是工作流程中成本高昂的部分现在任何人都可以通过 API 密钥访问：“护城河正在从模型访问转移到验证：发现漏洞信号的成本越来越低；但将其转化为可信的安全措施仍然很困难。”

Anthropic公司自身的安全报告承认，用于衡量模型是否构成严重网络风险的基准测试Cybench“已不足以充分反映当前前沿模型的能力”，因为Mythos模型已完全通过该测试。该实验室估计，其他人工智能实验室将在6到18个月内具备类似的能力。

Vidoc 的研究表明，该等式中发现的部分已经可以在任何封闭项目之外获得。他们的完整提示摘录、模型输出和方法附录均已发布在该实验室的官方网站上。