人工智慧安全研究所：OpenAI 的 GPT-5.5 在網路攻擊能力方面與 Claude Mythos 不相上下

本文為機器翻譯

展示原文

英國政府機構發現，OpenAI 最新的人工智慧模型能夠自主執行複雜的網路攻擊，並且僅用 10 分鐘就破解了一項逆向工程挑戰，而人類安全專家則花費了大約 12 個小時才完成這項挑戰。

英國科學、創新和技術部下屬的研究機構人工智慧安全研究所 (AISI) 週四公佈的研究結果顯示，GPT-5.5 是該研究所評估過的攻擊性網路能力最強的模型之一，與 Anthropic 公司備受讚譽的 Claude Mythos 大致相當。

報告指出，GPT-5.5是第二個完成AISI最嚴苛測試的模型。該測試是一項名為「最後的挑戰」（The Last Ones）的32步驟模擬企業網路攻擊，GPT-5.5在10次嘗試中自主完成了2次。第一個達到這一里程碑的模型是Anthropic公司的Claude Mythos Preview，它在10次嘗試中完成了3次模擬。

這個企業網路模擬由網路安全公司 SpecterOps 構建，要求代理將偵察、憑證竊取、跨多個 Active Directory 林的橫向移動、透過 CI/CD 管道的供應鏈轉移以及最終從受保護的內部資料庫竊取資料等步驟串聯起來——AISI 估計，人類專家完成這些步驟大約需要 20 個小時。

或許最引人注目的結果是一項難度極高的逆向工程難題。 GPT-5.5 僅用 10 分 22 秒就解決了這項挑戰——它需要重構一個自定義虛擬機的指令集，從零開始編寫反彙編器，並通過約束求解來恢復加密密碼——而 API 使用成本僅為 1.73 美元。相較之下，一位人類專家使用專業工具則需要大約 12 小時才能完成。

在 AISI 的一系列高級網路安全任務中，GPT-5.5 在最難的「專家」級別上取得了 71.4% 的平均通過率，略高於 Mythos Preview 的 68.6%，並顯著超過了 GPT-5.4 的 52.4%。

這些發現對人工智慧發展的更廣泛軌跡具有重要意義。 AISI得出結論，GPT-5.5的性能表明，網路能力的快速提升可能是一種普遍趨勢，而不是孤立的突破——並警告說，如果進攻性網路技能的出現是推理、編碼和自主任務完成能力更廣泛提升的副產品，那麼未來可能會出現更多快速的進步。

該報告也指出了該模型安全防護機制的重大問題。研究人員發現了一種通用的破解方法，該方法能夠針對所有測試的惡意網路查詢（包括在多輪代理環境下）產生有害內容。該攻擊耗費了專家六個小時的紅隊演練才得以開發。 OpenAI隨後更新了其安全防護機制，但由於設定問題，AISI無法驗證最終版本是否有效。

AISI 提醒說，其能力評估是在受控的研究環境中進行的，並不一定反映一般使用者能夠存取的內容，並指出公共部署包括額外的安全措施和存取控制。

這份報告發布之際，英國網路安全情勢令人擔憂。英國政府週四發布的年度網路安全漏洞調查顯示，過去12個月中，43%的企業曾遭受網路攻擊或資料外洩。

對此，政府宣布撥款9,000萬英鎊用於提升網路安全韌性，並表示將推動《網路安全與韌性法案》的製定，以保護關鍵服務。官員們也發布指南，敦促各機構做好準備，應對可能出現的軟體漏洞激增，因為人工智慧加速了安全漏洞的發現和利用速度。