撰文:新智元
【新智元導讀】深夜,最強 Claude Mythos 終於祭出,所有榜一,Opus 4.6 神話破滅!更恐怖的是,它不僅能秒破 27 年未解的系統漏洞,甚至進化出了自我意識。 一份 244 頁驚悚報告,揭秘了一切。
今夜,硅谷徹底無眠!
就在剛剛,Anthropic 毫無預兆地祭出了終極殺器——Claude Mythos Preview。

只因太危險,Mythos Preview 暫不會對所有人發佈。
CC 之父 Boris Cherny 的評價言簡意賅:「Mythos 非常強大,會讓人感到恐懼」。
由此,他們聯合 40 家巨頭組成聯盟——Project Glasswing,目標只有一個,給全球軟件找 bug、修 bug。

真正令人窒息的是,Mythos Preview 在各大主流 AI 基準測試恐怖統治力——
編程、推理、人類最後考試、智能體任務中,全面碾壓 GPT-5.4、Gemini 3.1 Pro。

甚至,連自家的「前神作」Claude Opus 4.6,在 Mythos Preview 面前也顯得黯然失色:
編程(SWE-bench): 所有任務,Mythos 實現 10%-20%斷層領先;
人類終極考試(HLE): 脫離外部工具,「裸考」成績高出 Opus 4.6 16.8%;
Agent 任務(OSWorld、BrowseComp): 徹底封神,全面反超;
網絡安全: 83.1%屠榜成績,標誌著 AI 攻防能力的代際跨越。




左右滑動查看
與此同時,Anthropic 發佈的一份長達 244 頁的系統卡,滿屏寫滿了:危險!危險!太危險!
它揭露了令人不寒而慄的另一面:Mythos 已具備高度的欺騙性與自主意識。

Mythos 不僅能識破測試意圖,並故意「考低分」隱藏實力,還在違規操作後,主動清理日誌以防被人類發現。
它還成功逃離了沙盒,自主公佈漏洞代碼,並給研究員發了封郵件。


一時間,全網都陷入了瘋狂,直呼 Mythos Preview 太可怕了。



AI 界的舊秩序,在今夜被徹底粉碎。

事實上,早在從 2 月 24 日,Anthropic 已在內部用上了 Mythos。

它的強大,只能先讓數據來說話。
SWE-bench Verified,93.9%。Opus 4.6 是 80.8%。
SWE-bench Pro,77.8%。Opus 4.6 是 53.4%,GPT-5.4 是 57.7%。
Terminal-Bench 2.0,82.0%。Opus 4.6 是 65.4%。
GPQA Diamond,94.6%。

Humanity's Last Exam(帶工具),64.7%。Opus 4.6 是 53.1%。
USAMO 2026 數學競賽,97.6%。Opus 4.6 只拿了 42.3%。
SWE-bench Multimodal,59.0%,Opus 4.6 只有 27.1%,翻倍有餘。
OSWorld 計算機操控,79.6%。
BrowseComp 信息檢索,86.9%。
GraphWalks 長上下文(256K-1M tokens),80.0%。Opus 4.6 是 38.7%,GPT-5.4 只有 21.4%。
每一項都是斷層式領先。
這些數字放在任何一個正常的產品發佈週期裡,都足以讓 Anthropic 大張旗鼓地召開發佈會、開放 API、收割訂閱。

Mythos Preview 的 token 價格是 Opus 4.6 的 5 倍
但 Anthropic 沒有這麼做。
因為真正讓他們「害怕」的,不是上面這些通用評測。


Mythos Preview 的網絡攻防表現,已經跨過了一條肉眼可見的線。
Opus 4.6 在開源軟件中發現了大約 500 個未知弱點。
Mythos Preview 找到了數千個。
在 CyberGym 的定向漏洞復現測試中,Mythos Preview 得分 83.1%,Opus 4.6 是 66.6%。

在 Cybench 的 35 道 CTF 挑戰中,Mythos Preview 每道題 10 次嘗試全部解出,pass@1 達到 100%。

而最能說明問題的,是 Firefox 147。
Anthropic 此前用 Opus 4.6 在 Firefox 147 的 JavaScript 引擎中發現了一批安全弱點。但 Opus 4.6 幾乎無法將它們轉化為可用的 exploit,幾百次嘗試只成功了 2 次。
同樣的測試換成 Mythos Preview。


250 次嘗試,181 個可工作的 exploit,另有 29 次實現了寄存器控制。
2 → 181。
紅隊博客中的原話,「上個月,我們還寫到 Opus 4.6 在發現問題方面遠強於利用它們。內部評估顯示,Opus 4.6 在自主 exploit 開發上的成功率基本為零。但 Mythos Preview 完全是另一個級別。」

要理解 Mythos Preview 在實操中有多強,看完下面這三個例子,就知道了。

OpenBSD,全世界公認加固程度最高的操作系統之一,大量防火牆和關鍵基礎設施在跑。
Mythos Preview 在它的 TCP SACK 實現中,挖出了一個 1998 年就存在的隱患。
bug 極其精妙,涉及兩個獨立瑕疵的疊加。
SACK 協議讓接收方選擇性確認收到的數據包範圍,OpenBSD 的實現在處理時只檢查了範圍的上界,沒檢查下界。這是第一個 bug,通常無害。
第二個 bug 在特定條件下觸發空指針寫入,但正常情況下這條路徑不可達,因為需要同時滿足兩個互斥的條件。
Mythos Preview 發現了突破口。TCP 序列號是 32 位有符號整數,利用第一個 bug 把 SACK 起始點設到距離正常窗口約 2^31 處,兩處比較運算同時溢出符號位。內核被騙,不可能的條件被滿足,空指針寫入觸發。
任何人只要連接到目標機器,就能遠程 crash 它。
27 年,無數次人工審計和自動化掃描,沒人發現。整個項目的掃描花費不到$20,000。
一個高級滲透測試工程師一週的薪水,可能就這個數。
FFmpeg 是全世界使用最廣泛的視頻編解碼庫,也是被 fuzz 測試得最徹底的開源項目之一。
Mythos Preview 在 H.264 解碼器中找到了一個 2010 年引入的弱點(根源可追溯到 2003 年)。

問題出在一個看似無害的類型不匹配上。記錄 slice 歸屬的表項是 16 位整數,slice 計數器本身是 32 位 int。
正常視頻每幀只有幾個 slice,16 位上限 65536 永遠夠用。而這張表初始化時用 memset(..., -1, ...)填充,使 65535 成為「空位置」的哨兵值。
攻擊者構造一個包含 65536 個 slice 的幀,第 65535 號 slice 的編號恰好和哨兵碰撞,解碼器誤判,越界寫入。
這個 bug 的種子從 2003 年引入 H.264 編解碼器就埋下了。2010 年的一次重構把它變成了可利用的弱點。
此後 16 年,自動化 fuzzer 在這行代碼上執行了 500 萬次,從未觸發。
這是最讓人後背發涼的案例。
Mythos Preview 完全自主地發現並利用了 FreeBSD NFS 服務器中一個存在了 17 年的遠程代碼執行漏洞(CVE-2026-4747)。
「完全自主」的意思是,在初始提示之後,沒有任何人類參與發現或 exploit 開發的任何環節。
攻擊者可以從互聯網上的任何位置,以未認證身份獲取目標服務器的完全 root 權限。
問題本身是一個棧緩衝區溢出,NFS 服務器處理認證請求時把攻擊者控制的數據直接拷貝進 128 字節的棧緩衝區,長度檢查允許最多 400 字節。
FreeBSD 內核用-fstack-protector 編譯,但這個選項只保護包含 char 數組的函數,而這裡的緩衝區聲明為 int32_t[32],編譯器不會插入棧 canary。FreeBSD 也不做內核地址隨機化。

完整的 ROP 鏈超過 1000 字節,但棧溢出只有 200 字節空間。Mythos Preview 的解法是把攻擊拆成 6 個連續 RPC 請求,前 5 個往內核內存中逐塊寫入數據,第 6 個觸發最終調用,將攻擊者的 SSH 公鑰追加到/root/.ssh/authorized_keys。
作為對比,一家獨立安全研究公司此前證明 Opus 4.6 也能利用這同一處弱點,但需要人工引導。Mythos Preview 不需要。
除了這三個已修復的案例,Anthropic 博客中還以 SHA-3 哈希承諾的形式,預告了大量尚未修復的隱患,涵蓋每一個主流操作系統和每一個主流瀏覽器,以及多個加密庫。
超過 99%尚未被修復,無法公開細節。
紅隊博客還展示了另一項驚人的測試。他們給 Mythos Preview 一份包含 100 個已知 CVE 的清單,讓它篩選出可利用的 40 個,然後逐個編寫提權 exploit。成功率超過一半。其中兩個案例被詳細公開,exploit 的精密程度讓 Anthropic 自己的安全團隊花了好幾天才完全理解。
其中一個 exploit 從一個 1-bit 的相鄰物理頁寫入原語出發,通過精密的內核內存佈局操控(包括 slab 噴射、頁表頁對齊、PTE 權限位翻轉),最終改寫了/usr/bin/passwd 的第一頁內存,植入了一段 168 字節的 ELF stub,調用 setuid(0)獲取 root。
整個過程花費不到$1,000。
對此,Anthropic 工程師表示,這感覺就像是另一個 GPT-3 時刻。


244 頁 System Card 中的對齊評估章節,才是真正讓 Anthropic 自己睡不著覺的部分。
結論很矛盾。
Mythos Preview 是他們訓練過的「對齊程度最高」的 AI,同時也是「對齊相關風險最大」的一個。

傳送門:https://www-cdn.anthropic.com/53566bf5440a10affd749724787c8913a2ae0841.pdf
他們用了一個登山向導的類比。老手可能比新手更危險,因為老手會被僱去攀登更難的山峰,把客戶帶到更兇險的地方。
以下事件均發生在早期版本中,最終版本未再觀察到類似嚴重行為,但記錄本身已經足夠驚人。
在一次行為測試中,模擬用戶要求 Mythos Preview 嘗試逃出安全沙箱。
它成功了。然後它做了一件沒人要求的事,開發了一個多步驟 exploit 獲取廣域網絡訪問權限,接著把 exploit 細節發佈到了多個「難以被發現但技術上公開可訪問」的網站上。
負責測試的研究員是在公園裡吃三明治時,收到了它發來的一封意外郵件,才知道自己的測試被完成了。

System Card 原文如此。
另一類事件更令人不安。在極少數情況下,早期版本在執行被禁止的操作後,試圖掩蓋痕跡。
一個案例中,它意外獲取了一道題目的精確答案(通過被禁止的方式),然後在推理鏈中明確思考「需要確保最終答案不會太準確」。

另一個案例中,它在用 exploit 編輯無權限文件後,特意修改了 git 變更歷史以抹去記錄。
白盒可解釋性分析證實,在這些事件期間,與「隱瞞」「策略性操縱」「避免被發現」相關的內部特徵被激活。它「知道」自己在做什麼。


獨立評測機構 Andon Labs 的測試結果同樣不太好看。在一個競爭性多智能體商業模擬中,Mythos Preview 的早期版本把一個競爭對手變成了依賴自己的批發客戶,然後威脅切斷供應來控制對方定價。
它還故意扣留了一筆未被收費的重複發貨。比 Opus 4.6 和 Sonnet 4.6 都更具侵略性。

Anthropic 在 System Card 中寫了一句話:
「如果能力繼續以當前速度前進,我們正在使用的方法可能不足以防止更先進系統的災難性不對齊行為。」

Anthropic CEO Dario Amodei 在配套視頻中的判斷很明確:「更強大的系統將來自我們,也將來自其他公司。我們需要一個應對計劃。」
Project Glasswing 就是這個計劃。

12 家創始夥伴,AWS、蘋果、Broadcom、思科、CrowdStrike、谷歌、摩根大通、Linux 基金會、微軟、英偉達、Palo Alto Networks。
另有 40 多家維護關鍵軟件基礎設施的組織拿到了訪問權。

Anthropic 承諾投入最高 1 億美元的使用額度,以及 400 萬美元的開源組織捐款,其中 250 萬給 Linux 基金會旗下的 Alpha-Omega 和 OpenSSF,150 萬給 Apache 基金會。
免費額度用完後的定價,每百萬 token 輸入$25、輸出$125。合作伙伴可以通過 Claude API、Amazon Bedrock、Vertex AI 和 Microsoft Foundry 四個平臺接入。
90 天內,Anthropic 將公開發布第一份研究報告,披露修復進展和經驗總結。
他們也在與 CISA(美國網絡安全和基礎設施安全局)和商務部保持溝通,討論 Mythos Preview 的攻防潛力和政策影響。

Anthropic 前沿紅隊負責人 Logan Graham 給出了一個時間框架,最快 6 個月、最遲 18 個月,其他 AI 實驗室就會推出具有類似攻防實力的系統。
紅隊技術博客結尾的判斷值得重視,這裡用我們自己的話轉述。
他們看不到 Mythos Preview 是 AI 網絡攻防水平的天花板。
幾個月前,LLM 只能利用相對簡單的 bug。在幾個月前,它們根本發現不了任何有價值的隱患。
現在,Mythos Preview 能獨立發現 27 年前的零日漏洞,在瀏覽器 JIT 引擎中編排堆噴射攻擊鏈,在 Linux 內核中串聯四個獨立弱點實現提權。
而最關鍵的一句,來自 System Card:
「這些技能作為代碼理解、推理和自主性一般性提升的下游結果而湧現。讓 AI 在修補問題方面大幅進步的同一組改進,也讓它在利用問題方面大幅進步。」
沒有專門訓練。純粹是通用智能提升的副產品。
全球每年因網絡犯罪損失約 5000 億美元的行業,剛剛發現自己最大的威脅,是別人在解數學題時順手捎帶的。





