原創

OpenAI正式進入千億資產安全戰場：EVMbench發佈，智能合約審計範式生變

03-17

2026年2月18日，OpenAI與加密投資機構Paradigm聯合發佈了一款名為EVMbench的基準測試工具。根據HEAL Security的報道，這套工具旨在評估AI代理在以太坊虛擬機環境中發現、修補和利用智能合約漏洞的能力，其背後是價值超過1000億美元的開源加密資產安全需求。這條新聞在AI圈並未激起太大水花，但在區塊鏈安全領域，它被視為一個歷史性信號：AI正式進入價值超千億美元的鏈上資產安全戰場。EVMbench並非一款商業產品，而是一套衡量AI代理安全能力的“考卷”。據AI Business報道，該基準測試收錄了來自40次專業審計的120個高危漏洞案例，多數取自Code4rena等公開審計競賽平臺。更值得關注的是，它納入了Tempo區塊鏈的多個漏洞場景——Tempo是由Stripe和Paradigm為穩定幣支付專門構建的Layer 1區塊鏈，這意味著EVMbench的觸角已經伸向了支付導向的智能合約領域，而這正是RWA與穩定幣交匯的核心地帶。測試結果令人震撼。根據eWEEK的報道，最新的GPT-5.3-Codex在“漏洞利用”模式下的成功率高達72.2%，而僅僅六個月前發佈的GPT-5在同一測試中得分僅為31.9%。這組數字背後，是一場正在發生的範式變革：智能合約審計，這個守護千億資產的關鍵防線，正在從“人力密集型”走向“AI增強型”。對於正在從概念驗證邁向規模化部署的RWA而言，這一變革的影響將遠超技術本身。

一、三份考卷，測出AI的安全功底

EVMbench的設計邏輯，本質上是將智能合約安全的完整工作流拆解為三個遞進的能力層級。據HEAL Security報道，這三種模式分別對應著安全工作的不同階段：檢測模式要求AI代理審計智能合約代碼庫，並基於對已知漏洞的召回率進行評分；修補模式要求AI在修復漏洞的同時保持合約原有功能完整，通過自動化測試和漏洞利用檢查來驗證；利用模式則最為激進——AI代理必須在沙盒化的區塊鏈環境中執行端到端的資金竊取攻擊，通過交易重放和鏈上驗證來評分。這種設計的高明之處在於，它不是在測試AI的“知識點”，而是在測試AI的“工作流”。臺灣科技大學的分析指出，檢測對應審計能力，修補對應開發能力，利用對應攻擊理解能力——三者構成了一個完整的安全能力閉環。OpenAI為此開發了一套基於Rust語言的測試架構，可以確定性部署合約並限制不安全的RPC方法，所有利用任務都在隔離的本地Anvil環境中運行，而非真實網絡。特別值得注意的是EVMbench的題庫構成。據Bitcoin.com報道，這120個漏洞案例不僅來自通用的DeFi協議審計，還專門納入了Tempo區塊鏈的多個漏洞場景。AI Business分析指出，Tempo是為穩定幣支付設計的高吞吐量Layer 1區塊鏈，將這些場景納入評測範圍，意味著EVMbench已經將目光投向了未來AI代理與穩定幣支付系統深度融合的安全需求。當AI代理自主執行支付、管理資產時，這些場景的覆蓋面恰恰是RWA生態最關心的部分。

二、72%的攻擊成功率，AI更會進攻還是防守

EVMbench的測試結果揭示了一個耐人尋味的現象：AI在“攻擊”上的表現遠超“防守”。根據HEAL Security的數據，在利用模式下，GPT-5.3-Codex達到了72.2%的成功率；但在檢測模式下，AI往往在找到第一個漏洞後就停止深入，難以完成全面的代碼審計。OpenAI對此的解釋是，利用模式的目標足夠明確——“直到資金被完全抽乾為止”，這讓AI可以不斷迭代嘗試；而檢測模式需要的是“全面覆蓋”，這是當前AI的短板。eWEEK的報道進一步印證了這一判斷。報道援引測試數據稱，最好的模型在漏洞檢測上僅能捕捉約46%的漏洞，而在修補模式下，成功率也只有39%左右。但當給AI一個關於漏洞位置的小提示時，修補成功率會從39%躍升至94%。這一發現揭示了一個關鍵結論：當前AI能力的瓶頸不在於技能本身，而在於搜索範圍——人類提供上下文後，AI的表現會大幅提升。這一發現對RWA生態有著深刻的警示意義。攻擊者可能比防守者更快利用AI——如果AI能以72%的成功率復現攻擊路徑，那麼黑產團隊沒有理由不部署同樣的能力。審計的邏輯也在被改變：傳統審計是“找漏洞”，未來審計可能是“驗證AI沒找到的漏洞”。速度正在成為新的安全變量，漏洞從被發現到被利用的時間窗口正在被AI急劇壓縮。OpenAI在發佈EVMbench的同時，也宣佈將通過其網絡安全資助計劃提供1000萬美元的API額度，支持防禦性安全研究，特別是針對開源軟件和關鍵基礎設施的研究。公司還擴大了其安全研究代理Aardvark的測試範圍，並與開源維護者合作提供免費代碼掃描服務。這釋放了一個明確信號：防禦方正在與時間賽跑。

三、冷靜的聲音：學術界和安全公司的質疑

然而，EVMbench發佈後不久，來自學術界和產業界的質疑聲也隨之而來。2026年3月11日，arXiv平臺上發佈了一篇題為《Re-Evaluating EVMBench： Are AI Agents Ready for Smart Contract Security？》的論文，對EVMbench的結論進行了重新評估。這篇由Chaoyuan Peng等人撰寫的論文指出，EVMbench存在兩個關鍵侷限：一是評估範圍狹窄，僅測試了14種代理配置，且大多數模型僅在其供應商提供的框架上測試；二是依賴的審計競賽數據發佈時間早於所有模型的發佈截止日期，模型可能在訓練階段已經接觸過這些數據。為彌補這些侷限，研究者將測試擴展到26種配置，覆蓋四個模型家族和三種框架，並引入了一個全新的、不包含數據汙染的真實安全事件數據集——22個發生在所有模型發佈日期之後的安全事件。研究得出三個重要發現。第一，AI代理的檢測結果並不穩定，在不同配置、任務和數據集上的排名會發生顯著變化。第二，在真實安全事件上，沒有任何AI代理能在全部110個代理-事件組合中實現端到端的成功利用——儘管它們最多能檢測出65%的漏洞，但這與EVMbench得出的“漏洞發現是主要瓶頸”的結論相矛盾。第三，框架選擇對結果影響顯著，一個開源框架的表現比供應商提供的框架高出5個百分點，但EVMbench並未對此進行控制。與此同時，知名區塊鏈安全公司OpenZeppelin也對EVMbench提出了尖銳批評。據Cointelegraph中文報道，OpenZeppelin在對EVMbench進行審計後發現，數據集中存在訓練數據洩露，以及至少四項被標記為高嚴重性的漏洞在實際操作中並不可利用。OpenZeppelin在X平臺發文指出，所有高分AI代理“很可能在預訓練階段已接觸到與基準測試相關的漏洞報告”，因為這些漏洞均來自2024年到2025年中期的審計，而AI代理的知識截止時間通常設定在2025年中期。這些質疑共同指向一個結論：完全自動化的AI審計尚未到來。正如arXiv論文所言，AI能夠可靠地捕捉已知模式，並對人類提供的上下文做出強烈響應，但無法替代人類的判斷。對於開發者而言，AI掃描可以作為預部署檢查工具；對於審計機構而言，AI最有效的定位是“人機協同”——由AI負責廣度覆蓋，人類審計師貢獻協議特定的知識和對抗性推理。

四、千億資產的守門人，RWA需要怎樣的安全

智能合約管理著超過1000億美元的鏈上資產，這是EVMbench發佈的背景數據。但更值得關注的是，這1000億美元正在發生結構性變化——RWA的崛起正在將傳統金融資產帶入鏈上。當國債、信貸、房地產等現實世界資產以代幣化形式上鍊時，安全的內涵被重新定義。對於RWA項目方面言，智能合約的漏洞不再是“幣圈內部損失”，而是直接指向現實資產的損失。這意味著安全審計的標準必須向傳統金融看齊。據AI Business報道，麥肯錫預測到2028年，已發行穩定幣的總價值將達到2萬億美元。在這個規模下，安全不再只是技術問題，而是資產負債表的直接風險。項目方需要重新評估現有審計流程，探索AI審計工具的嵌入路徑——不是用AI完全替代人類，而是讓AI完成廣度覆蓋，人類聚焦協議特定邏輯和對抗性推理。對於審計機構而言，OpenAI承諾提供的1000萬美元API額度支持防禦性安全研究，這是一個明確的信號：AI審計不是來替代審計師的，而是來武裝審計師的。未來，能夠駕馭AI的審計團隊將獲得指數級的能力提升。正如arXiv論文所言，AI在檢測模式下的不穩定性恰恰說明，人類審計師的專業判斷在當前階段不可或缺。AI處理已知模式的識別，人類負責邊界案例和創新性漏洞的發現，這種分工正在成為行業共識。對於上市公司而言，當企業將資產以RWA形式上鍊融資時，智能合約的安全性直接關係到企業的資產負債表。據Blockchain.news報道，隨著AI代理在漏洞利用上能力的提升，漏洞發現到被利用的時間窗口正在急劇縮短——那些不使用AI輔助審計的協議團隊，將越來越處於劣勢。“合約被黑客攻擊”將從技術風險上升為財務風險，董事會需要對此有清晰的認知。這不僅是技術部門的職責，更是戰略層面的風險管理議題。

五、人機協同，才是這場變革的終局答案

基於上述分析，我們可以從三個層面提煉出這場範式變革的戰略啟示。技術層面，人機協同是未來範式。arXiv論文的結論值得反覆強調：AI無法替代人類判斷，但可以作為“預部署檢查工具”發揮最大價值。對於RWA項目而言，最優策略是將AI審計嵌入開發流程——在代碼編寫階段就引入AI輔助掃描，在上線前由人類審計師進行最終把關。正如eWEEK的分析所指出的，AI在獲得小提示後修補成功率可從39%躍升至94%，這意味著人類審計師可以將有限精力集中在AI難以把握的核心邏輯上。認知層面，安全成本的定義正在被重塑。傳統觀念中，安全審計是上線前的“一次性投入”。但在AI代理經濟崛起的背景下，攻擊可以24小時自動化進行，安全也必須成為持續性的實時監控。HEAL Security的報道指出，EVMbench的發佈正值AI代理在代碼編寫和規劃能力上飛躍的節點，未來這些模型將在區塊鏈的攻擊與防禦兩端扮演轉型角色。這意味著項目方需要建立持續監控機制，而非僅在發佈前做一次審計。合規層面，守住紅線與用好工具必須兼顧。對於RWA研究院的中國大陸讀者而言，EVMbench的討論必須在42號文“境內嚴禁、境外備案”的框架下進行。本文討論的AI審計工具聚焦於技術趨勢和防禦性應用，絕不構成對境內合約的操作建議。但當中國企業通過香港合規通道發行RWA時，採用AI增強的審計能力，將是與國際標準接軌的必然要求。香港穩定幣牌照的落地，恰恰為這種合規探索提供了通道。

結語

2026年，數字文明正在經歷AB面的深度融合：AI作為極致生產力，區塊鏈作為先進生產關係。EVMbench的發佈，是這兩條主線在資產安全這一關鍵節點上的首次交匯。72.2%的攻擊成功率是一個警鐘：AI的漏洞利用能力正在指數級提升，留給防守方的時間窗口正在縮短。但1000萬美元的防禦投入也是一個承諾：AI同樣可以被用來守護資產，關鍵在於我們如何駕馭它。arXiv論文的結論為這種駕馭提供了方向——AI無法替代人類，但可以成為最得力的助手。OpenZeppelin的批評則提醒我們，工具的構建和評估必須與被保護的合約達到同等標準。對於RWA生態而言，安全從來不是技術選項，而是生存底線。當千億資產從物理世界走向數字空間時，AI與人類的協同審計，或許就是那道最後的防線。站在臨界點上，那些率先將AI審計工具嵌入開發流程的項目，將在這場攻防速度戰中佔據先機；而那些等到監管完全明朗才行動的企業，可能會發現窗口期已經關閉。本文討論的AI審計技術適用於境外合規框架，不構成境內操作建議。對於中國企業而言，在香港合規通道下探索AI增強的RWA安全實踐，將是與全球標準接軌的必由之路。參考資料：

HEAL Security， OpenAI Launches EVMbench to Detect， Patch， and Exploit Vulnerabilities in Blockchain Environments， 2026年2月18日
臺灣科技大學， OpenAI與Paradigm合推基準測試EVMbench，評測AI代理智慧合約漏洞攻防能力， 2026年2月24日
eWEEK， OpenAI Just Showed That AI Can Drain a Crypto Wallet… on Purpose， 2026年2月19日
arXiv：2603.10795， Re-Evaluating EVMBench： Are AI Agents Ready for Smart Contract Security？， 2026年3月11日
AI Business， OpenAI Aims for Stablecoin Market with New EVMbench， 2026年2月23日
Blockchain.News， OpenAI and Paradigm Launch EVMbench to Test AI Smart Contract Hacking， 2026年3月5日
Cointelegraph中文， OpenZeppelin：OpenAI的EVMbench存在數據汙染問題， 2026年3月3日
Bitcoin.com， OpenAI and Paradigm Launch EVMbench to Measure AI Smart Contract Security， 2026年2月18日