人工智慧安全研究所：OpenAI 的 GPT-5.5 在网路攻击能力方面与 Claude Mythos 不相上下

本文为机器翻译

展示原文

英国政府机构发现，OpenAI 最新的人工智慧模型能够自主执行复杂的网路攻击，并且仅用 10 分钟就破解了一项逆向工程挑战，而人类安全专家则花费了大约 12 个小时才完成这项挑战。

英国科学、创新和技术部下属的研究机构人工智慧安全研究所 (AISI) 周四公布的研究结果显示，GPT-5.5 是该研究所评估过的攻击性网路能力最强的模型之一，与 Anthropic 公司备受赞誉的 Claude Mythos 大致相当。

报告指出，GPT-5.5是第二个完成AISI最严苛测试的模型。该测试是一项名为「最后的挑战」（The Last Ones）的32步骤模拟企业网路攻击，GPT-5.5在10次尝试中自主完成了2次。第一个达到这一里程碑的模型是Anthropic公司的Claude Mythos Preview，它在10次尝试中完成了3次模拟。

这个企业网路模拟由网路安全公司 SpecterOps 构建，要求代理将侦察、凭证窃取、跨多个 Active Directory 林的横向移动、透过 CI/CD 管道的供应链转移以及最终从受保护的内部资料库窃取资料等步骤串联起来——AISI 估计，人类专家完成这些步骤大约需要 20 个小时。

或许最引人注目的结果是一项难度极高的逆向工程难题。 GPT-5.5 仅用 10 分 22 秒就解决了这项挑战——它需要重构一个自定义虚拟机的指令集，从零开始编写反汇编器，并通过约束求解来恢复加密密码——而 API 使用成本仅为 1.73 美元。相较之下，一位人类专家使用专业工具则需要大约 12 小时才能完成。

在 AISI 的一系列高级网路安全任务中，GPT-5.5 在最难的「专家」级别上取得了 71.4% 的平均通过率，略高于 Mythos Preview 的 68.6%，并显著超过了 GPT-5.4 的 52.4%。

这些发现对人工智慧发展的更广泛轨迹具有重要意义。 AISI得出结论，GPT-5.5的性能表明，网路能力的快速提升可能是一种普遍趋势，而不是孤立的突破——并警告说，如果进攻性网路技能的出现是推理、编码和自主任务完成能力更广泛提升的副产品，那么未来可能会出现更多快速的进步。

该报告也指出了该模型安全防护机制的重大问题。研究人员发现了一种通用的破解方法，该方法能够针对所有测试的恶意网路查询（包括在多轮代理环境下）产生有害内容。该攻击耗费了专家六个小时的红队演练才得以开发。 OpenAI随后更新了其安全防护机制，但由于设定问题，AISI无法验证最终版本是否有效。

AISI 提醒说，其能力评估是在受控的研究环境中进行的，并不一定反映一般使用者能够存取的内容，并指出公共部署包括额外的安全措施和存取控制。

这份报告发布之际，英国网路安全情势令人担忧。英国政府周四发布的年度网路安全漏洞调查显示，过去12个月中，43%的企业曾遭受网路攻击或资料外泄。

对此，政府宣布拨款9,000万英镑用于提升网路安全韧性，并表示将推动《网路安全与韧性法案》的制定，以保护关键服务。官员们也发布指南，敦促各机构做好准备，应对可能出现的软体漏洞激增，因为人工智慧加速了安全漏洞的发现和利用速度。