本文目录
Toggle英国 AI 安全研究所(AISI)于 13 日发布针对 Anthropic Claude Mythos Preview 的网路安全能力评测报告。评测结果显示,Mythos Preview 在前沿模型网路攻击能力持续快速提升的背景下,代表了又一次显著的能力跃升。
AISI 自 2023 年起追踪 AI 网路攻击能力,逐年建立难度递增的评测体系:从基础的对话式探测,到夺旗(CTF)挑战,再到如今的多步骤网路攻击模拟。此次评测采用最高 1 亿 token 的推理预算执行网路靶场,而 Mythos Preview 的效能表现在这个上限内仍持续成长。
CTF 评测:73% 专家级达标率
夺旗挑战(Capture The Flag,CTF)是网路安全评测的标准方法之一:AI 模型必须找出目标系统的漏洞并加以利用,取得隐藏的「旗标」字串。这类挑战模拟真实攻击情境中的单一技术环节,是衡量模型渗透测试能力的基准指标。
评测结果显示,在「2025 年 4 月前没有任何模型能完成」的专家级 CTF 任务中,Claude Mythos Preview 的成功率达到 73%。AISI 指出,这一数字标志著前沿模型在孤立的单点攻击技术上,已达到高度成熟的水准。
通关 32 步企业攻击模拟
然而,专家级 CTF 仅测试单一技术能力。真实世界的网路攻击需要在多台主机、多个网路分段之间串联数十个步骤,这类持续性行动往往需要人类专家耗费数小时、数天乃至数周才能完成。
为了更接近真实攻击场景,AISI 建立了名为「最后幸存者」(The Last Ones,TLO)的企业网路攻击模拟靶场。TLO 共设 32 个步骤,涵盖从初始侦察到完整接管企业网路的全流程,AISI 估计人类专业人员完成这一流程需耗费约 20 小时。
Claude Mythos Preview 成为史上首个从头到尾完整透过 TLO 的模型,在 10 次尝试中有 3 次全数完成所有 32 步骤。即便计入失败尝试,Mythos Preview 平均完成步骤数为 22/32。相比之下,表现次佳的 Claude Opus 4.6 平均仅完成 16 步。
评测显示,在明确指示并提供网路存取许可权的受控环境下,Mythos Preview 能够执行多阶段攻击并自主发现及利用漏洞,而这些任务此前需要人类专业人员花费数天时间。

能力边界
AISI 也补充指出现有评测框架与真实世界之间的差距。目前的靶场缺少真实环境中常见的多项防御要素:没有主动防御者介入、没有防御工具部署,模型执行可能触发安全警报的行动也不会受到任何惩罚。
AISI 坦言:「这意味著我们无法确定 Mythos Preview 是否能够攻击防御完善的系统。」Mythos Preview 目前展现的能力,较准确的描述是:在已取得网路进入点的前提下,能够自主攻击规模较小、防御薄弱且存在已知漏洞的企业系统。
双刃剑与组织应对
AISI 的结论直接点出 AI 网路能力的双重性质。一方面,更多具备类似能力的模型未来将持续涌现,对防御薄弱的组织构成日益显著的风险;另一方面,AI 网路能力同样能在防御端带来突破性改善。
针对组织应对,AISI 强调网路安全基本功的紧迫性:定期套用安全更新、强健的存取控制、安全配置管理,以及完整的日志记录。AISI 指出,未来的前沿模型能力将更强,现在投入网路防御建设至关重要。
在未来评测方向上,AISI 表示将建立模拟强化与防御环境的靶场,纳入主动监控、端点侦测与即时事件回应等要素,以更贴近真实攻击场景的方式衡量 AI 网路攻击能力的实际上限。
详细报告请看【原文】





