英国 AI 安全研究所评测 Claude Mythos：能自主完成 32 步企业网路攻击模拟

本文目录

英国 AI 安全研究所（AISI）于 13 日发布针对 Anthropic Claude Mythos Preview 的网路安全能力评测报告。评测结果显示，Mythos Preview 在前沿模型网路攻击能力持续快速提升的背景下，代表了又一次显著的能力跃升。

AISI 自 2023 年起追踪 AI 网路攻击能力，逐年建立难度递增的评测体系：从基础的对话式探测，到夺旗（CTF）挑战，再到如今的多步骤网路攻击模拟。此次评测采用最高 1 亿 token 的推理预算执行网路靶场，而 Mythos Preview 的效能表现在这个上限内仍持续成长。

夺旗挑战（Capture The Flag，CTF）是网路安全评测的标准方法之一：AI 模型必须找出目标系统的漏洞并加以利用，取得隐藏的「旗标」字串。这类挑战模拟真实攻击情境中的单一技术环节，是衡量模型渗透测试能力的基准指标。

评测结果显示，在「2025 年 4 月前没有任何模型能完成」的专家级 CTF 任务中，Claude Mythos Preview 的成功率达到 73%。AISI 指出，这一数字标志著前沿模型在孤立的单点攻击技术上，已达到高度成熟的水准。

然而，专家级 CTF 仅测试单一技术能力。真实世界的网路攻击需要在多台主机、多个网路分段之间串联数十个步骤，这类持续性行动往往需要人类专家耗费数小时、数天乃至数周才能完成。

为了更接近真实攻击场景，AISI 建立了名为「最后幸存者」（The Last Ones，TLO）的企业网路攻击模拟靶场。TLO 共设 32 个步骤，涵盖从初始侦察到完整接管企业网路的全流程，AISI 估计人类专业人员完成这一流程需耗费约 20 小时。

Claude Mythos Preview 成为史上首个从头到尾完整透过 TLO 的模型，在 10 次尝试中有 3 次全数完成所有 32 步骤。即便计入失败尝试，Mythos Preview 平均完成步骤数为 22/32。相比之下，表现次佳的 Claude Opus 4.6 平均仅完成 16 步。

评测显示，在明确指示并提供网路存取许可权的受控环境下，Mythos Preview 能够执行多阶段攻击并自主发现及利用漏洞，而这些任务此前需要人类专业人员花费数天时间。

AISI 也补充指出现有评测框架与真实世界之间的差距。目前的靶场缺少真实环境中常见的多项防御要素：没有主动防御者介入、没有防御工具部署，模型执行可能触发安全警报的行动也不会受到任何惩罚。

AISI 坦言：「这意味著我们无法确定 Mythos Preview 是否能够攻击防御完善的系统。」Mythos Preview 目前展现的能力，较准确的描述是：在已取得网路进入点的前提下，能够自主攻击规模较小、防御薄弱且存在已知漏洞的企业系统。

AISI 的结论直接点出 AI 网路能力的双重性质。一方面，更多具备类似能力的模型未来将持续涌现，对防御薄弱的组织构成日益显著的风险；另一方面，AI 网路能力同样能在防御端带来突破性改善。

针对组织应对，AISI 强调网路安全基本功的紧迫性：定期套用安全更新、强健的存取控制、安全配置管理，以及完整的日志记录。AISI 指出，未来的前沿模型能力将更强，现在投入网路防御建设至关重要。

在未来评测方向上，AISI 表示将建立模拟强化与防御环境的靶场，纳入主动监控、端点侦测与即时事件回应等要素，以更贴近真实攻击场景的方式衡量 AI 网路攻击能力的实际上限。

详细报告请看【原文】

来源

免责声明：以上内容仅为作者观点，不代表Followin的任何立场，不构成与Followin相关的任何投资建议。

喜欢