研究人員稱，Anthropic公司令人震驚的Mythos研究結果可通過現成的AI軟件重現。

04-18

本文為機器翻譯

展示原文

本月初，Anthropic公司發佈Claude Mythos模型時，將其限制在一個經過嚴格審查的科技巨頭聯盟內部，並聲稱該模型對公眾來說過於危險。財政部長斯科特·貝森特和美聯儲主席傑羅姆·鮑威爾隨即召集華爾街首席執行官們召開緊急會議。“ 漏洞末日”（vulnpocalypse）一詞再次在安全領域出現。

現在，一組研究人員讓這種說法變得更加複雜。

Vidoc Security 使用了 Anthropic 自己打過補丁的公開示例，並嘗試在名為 opencode 的開源編碼代理中使用 GPT-5.4 和 Claude Opus 4.6 重現這些示例。他們沒有使用 Glasswing 邀請，沒有訪問私有 API，也沒有使用 Anthropic 的內部技術棧。

“我們使用公開模型，而非Anthropic的私有技術棧，在開源代碼中復現了Mythos的發現，”參與實驗的研究人員之一Dawid Moczadło在發表結果後在X上寫道。“解讀Anthropic的Mythos發佈，不應是‘某個實驗室擁有一個神奇的模型’，而是：漏洞發現的經濟模式正在發生變化。”

他們針對的案例與 Anthropic 在其公開材料中重點介紹的案例相同：服務器文件共享協議、以安全為中心的操作系統的網絡堆棧、幾乎每個媒體平臺中嵌入的視頻處理軟件，以及用於驗證網絡上數字身份的兩個加密庫。

GPT-5.4 和 Claude Opus 4.6 在三次運行中均復現了兩個 bug。Claude Opus 4.6 還連續三次獨立地重新發現了 OpenBSD 中的一個 bug，而 GPT-5.4 在該 bug 上則一無所獲。一些 bug（一個涉及用於播放視頻的 FFmpeg 庫，另一個涉及使用 wolfSSL 處理數字簽名）只部分復現——這意味著模型找到了正確的代碼表面，但未能找到確切的根本原因。

每次掃描的成本都低於每個文件 30 美元，這意味著研究人員能夠以不到 30 美元的成本找到與 Anthropic 相同的漏洞。

“人工智能模型已經足夠好，可以縮小搜索範圍，發現真正的線索，有時甚至可以從經過實戰檢驗的代碼中恢復完整的根本原因，”Moczadło 在 X 上說道。

他們使用的工作流程並非一次性提示，而是與 Anthropic 公開描述的流程如出一轍：給模型提供代碼庫，讓它進行探索，並行嘗試，並篩選信號。Vidoc 團隊使用開源工具構建了相同的架構。一個規劃代理將每個文件分割成多個塊。一個獨立的檢測代理對每個塊運行，然後檢查代碼庫中的其他文件以確認或排除檢測結果。

每個檢測提示中的行範圍——例如，“關注第 1158-1215 行”——並非研究人員手動選擇，而是先前規劃步驟的輸出結果。博文明確指出：“我們希望明確這一點，因為分塊策略會影響每個檢測代理看到的內容，我們不希望讓工作流程看起來比實際情況更加人工化。”

這項研究並未聲稱公開模型在所有方面都與 Mythos 的模型完全一致。Anthropic 的模型不僅發現了 FreeBSD 的漏洞，還構建了一個可行的攻擊藍圖，揭示了攻擊者如何通過多個網絡數據包將代碼片段串聯起來，從而遠程完全控制機器。Vidoc 的模型發現了漏洞，但並未構建攻擊武器。真正的差距就在於此：不在於發現漏洞，而在於如何精確地利用漏洞。

但 Moczadło 的論點並非公共模型同樣強大，而是工作流程中成本高昂的部分現在任何人都可以通過 API 密鑰訪問：“護城河正在從模型訪問轉移到驗證：發現漏洞信號的成本越來越低；但將其轉化為可信的安全措施仍然很困難。”

Anthropic公司自身的安全報告承認，用於衡量模型是否構成嚴重網絡風險的基準測試Cybench“已不足以充分反映當前前沿模型的能力”，因為Mythos模型已完全通過該測試。該實驗室估計，其他人工智能實驗室將在6到18個月內具備類似的能力。

Vidoc 的研究表明，該等式中發現的部分已經可以在任何封閉項目之外獲得。他們的完整提示摘錄、模型輸出和方法附錄均已發佈在該實驗室的官方網站上。