本月初,Anthropic公司发布Claude Mythos模型时,将其限制在一个经过严格审查的科技巨头联盟内部,并声称该模型对公众来说过于危险。财政部长斯科特·贝森特和美联储主席杰罗姆·鲍威尔随即召集华尔街首席执行官们召开紧急会议。“ 漏洞末日”(vulnpocalypse)一词再次在安全领域出现。
现在,一组研究人员让这种说法变得更加复杂。
Vidoc Security 使用了 Anthropic 自己打过补丁的公开示例,并尝试在名为 opencode 的开源编码代理中使用 GPT-5.4 和 Claude Opus 4.6 重现这些示例。他们没有使用 Glasswing 邀请,没有访问私有 API,也没有使用 Anthropic 的内部技术栈。
“我们使用公开模型,而非Anthropic的私有技术栈,在开源代码中复现了Mythos的发现,”参与实验的研究人员之一Dawid Moczadło在发表结果后在X上写道。“解读Anthropic的Mythos发布,不应是‘某个实验室拥有一个神奇的模型’,而是:漏洞发现的经济模式正在发生变化。”
他们针对的案例与 Anthropic 在其公开材料中重点介绍的案例相同:服务器文件共享协议、以安全为中心的操作系统的网络堆栈、几乎每个媒体平台中嵌入的视频处理软件,以及用于验证网络上数字身份的两个加密库。
GPT-5.4 和 Claude Opus 4.6 在三次运行中均复现了两个 bug。Claude Opus 4.6 还连续三次独立地重新发现了 OpenBSD 中的一个 bug,而 GPT-5.4 在该 bug 上则一无所获。一些 bug(一个涉及用于播放视频的 FFmpeg 库,另一个涉及使用 wolfSSL 处理数字签名)只部分复现——这意味着模型找到了正确的代码表面,但未能找到确切的根本原因。
每次扫描的成本都低于每个文件 30 美元,这意味着研究人员能够以不到 30 美元的成本找到与 Anthropic 相同的漏洞。
“人工智能模型已经足够好,可以缩小搜索范围,发现真正的线索,有时甚至可以从经过实战检验的代码中恢复完整的根本原因,”Moczadło 在 X 上说道。
他们使用的工作流程并非一次性提示,而是与 Anthropic 公开描述的流程如出一辙:给模型提供代码库,让它进行探索,并行尝试,并筛选信号。Vidoc 团队使用开源工具构建了相同的架构。一个规划代理将每个文件分割成多个块。一个独立的检测代理对每个块运行,然后检查代码库中的其他文件以确认或排除检测结果。
每个检测提示中的行范围——例如,“关注第 1158-1215 行”——并非研究人员手动选择,而是先前规划步骤的输出结果。 博文明确指出:“我们希望明确这一点,因为分块策略会影响每个检测代理看到的内容,我们不希望让工作流程看起来比实际情况更加人工化。”
这项研究并未声称公开模型在所有方面都与 Mythos 的模型完全一致。Anthropic 的模型不仅发现了 FreeBSD 的漏洞,还构建了一个可行的攻击蓝图,揭示了攻击者如何通过多个网络数据包将代码片段串联起来,从而远程完全控制机器。Vidoc 的模型发现了漏洞,但并未构建攻击武器。真正的差距就在于此:不在于发现漏洞,而在于如何精确地利用漏洞。
但 Moczadło 的论点并非公共模型同样强大,而是工作流程中成本高昂的部分现在任何人都可以通过 API 密钥访问:“护城河正在从模型访问转移到验证:发现漏洞信号的成本越来越低;但将其转化为可信的安全措施仍然很困难。”
Anthropic公司自身的安全报告承认,用于衡量模型是否构成严重网络风险的基准测试Cybench“已不足以充分反映当前前沿模型的能力”,因为Mythos模型已完全通过该测试。该实验室估计,其他人工智能实验室将在6到18个月内具备类似的能力。
Vidoc 的研究表明,该等式中发现的部分已经可以在任何封闭项目之外获得。他们的完整提示摘录、模型输出和方法附录均已发布在该实验室的官方网站上。





