2026年2月18日,OpenAI與加密投資機構Paradigm聯合發佈了一款名為EVMbench的基準測試工具。根據HEAL Security的報道,這套工具旨在評估AI代理在以太坊虛擬機環境中發現、修補和利用智能合約漏洞的能力,其背後是價值超過1000億美元的開源加密資產安全需求。這條新聞在AI圈並未激起太大水花,但在區塊鏈安全領域,它被視為一個歷史性信號:AI正式進入價值超千億美元的鏈上資產安全戰場。EVMbench並非一款商業產品,而是一套衡量AI代理安全能力的“考卷”。據AI Business報道,該基準測試收錄了來自40次專業審計的120個高危漏洞案例,多數取自Code4rena等公開審計競賽平臺。更值得關注的是,它納入了Tempo區塊鏈的多個漏洞場景——Tempo是由Stripe和Paradigm為穩定幣支付專門構建的Layer 1區塊鏈,這意味著EVMbench的觸角已經伸向了支付導向的智能合約領域,而這正是RWA與穩定幣交匯的核心地帶。測試結果令人震撼。根據eWEEK的報道,最新的GPT-5.3-Codex在“漏洞利用”模式下的成功率高達72.2%,而僅僅六個月前發佈的GPT-5在同一測試中得分僅為31.9%。這組數字背後,是一場正在發生的範式變革:智能合約審計,這個守護千億資產的關鍵防線,正在從“人力密集型”走向“AI增強型”。對於正在從概念驗證邁向規模化部署的RWA而言,這一變革的影響將遠超技術本身。

一、三份考卷,測出AI的安全功底
EVMbench的設計邏輯,本質上是將智能合約安全的完整工作流拆解為三個遞進的能力層級。據HEAL Security報道,這三種模式分別對應著安全工作的不同階段:檢測模式要求AI代理審計智能合約代碼庫,並基於對已知漏洞的召回率進行評分;修補模式要求AI在修復漏洞的同時保持合約原有功能完整,通過自動化測試和漏洞利用檢查來驗證;利用模式則最為激進——AI代理必須在沙盒化的區塊鏈環境中執行端到端的資金竊取攻擊,通過交易重放和鏈上驗證來評分。這種設計的高明之處在於,它不是在測試AI的“知識點”,而是在測試AI的“工作流”。臺灣科技大學的分析指出,檢測對應審計能力,修補對應開發能力,利用對應攻擊理解能力——三者構成了一個完整的安全能力閉環。OpenAI為此開發了一套基於Rust語言的測試架構,可以確定性部署合約並限制不安全的RPC方法,所有利用任務都在隔離的本地Anvil環境中運行,而非真實網絡。特別值得注意的是EVMbench的題庫構成。據Bitcoin.com報道,這120個漏洞案例不僅來自通用的DeFi協議審計,還專門納入了Tempo區塊鏈的多個漏洞場景。AI Business分析指出,Tempo是為穩定幣支付設計的高吞吐量Layer 1區塊鏈,將這些場景納入評測範圍,意味著EVMbench已經將目光投向了未來AI代理與穩定幣支付系統深度融合的安全需求。當AI代理自主執行支付、管理資產時,這些場景的覆蓋面恰恰是RWA生態最關心的部分。
二、72%的攻擊成功率,AI更會進攻還是防守
EVMbench的測試結果揭示了一個耐人尋味的現象:AI在“攻擊”上的表現遠超“防守”。根據HEAL Security的數據,在利用模式下,GPT-5.3-Codex達到了72.2%的成功率;但在檢測模式下,AI往往在找到第一個漏洞後就停止深入,難以完成全面的代碼審計。OpenAI對此的解釋是,利用模式的目標足夠明確——“直到資金被完全抽乾為止”,這讓AI可以不斷迭代嘗試;而檢測模式需要的是“全面覆蓋”,這是當前AI的短板。eWEEK的報道進一步印證了這一判斷。報道援引測試數據稱,最好的模型在漏洞檢測上僅能捕捉約46%的漏洞,而在修補模式下,成功率也只有39%左右。但當給AI一個關於漏洞位置的小提示時,修補成功率會從39%躍升至94%。這一發現揭示了一個關鍵結論:當前AI能力的瓶頸不在於技能本身,而在於搜索範圍——人類提供上下文後,AI的表現會大幅提升。這一發現對RWA生態有著深刻的警示意義。攻擊者可能比防守者更快利用AI——如果AI能以72%的成功率復現攻擊路徑,那麼黑產團隊沒有理由不部署同樣的能力。審計的邏輯也在被改變:傳統審計是“找漏洞”,未來審計可能是“驗證AI沒找到的漏洞”。速度正在成為新的安全變量,漏洞從被發現到被利用的時間窗口正在被AI急劇壓縮。OpenAI在發佈EVMbench的同時,也宣佈將通過其網絡安全資助計劃提供1000萬美元的API額度,支持防禦性安全研究,特別是針對開源軟件和關鍵基礎設施的研究。公司還擴大了其安全研究代理Aardvark的測試範圍,並與開源維護者合作提供免費代碼掃描服務。這釋放了一個明確信號:防禦方正在與時間賽跑。
三、冷靜的聲音:學術界和安全公司的質疑
然而,EVMbench發佈後不久,來自學術界和產業界的質疑聲也隨之而來。2026年3月11日,arXiv平臺上發佈了一篇題為《Re-Evaluating EVMBench: Are AI Agents Ready for Smart Contract Security?》的論文,對EVMbench的結論進行了重新評估。這篇由Chaoyuan Peng等人撰寫的論文指出,EVMbench存在兩個關鍵侷限:一是評估範圍狹窄,僅測試了14種代理配置,且大多數模型僅在其供應商提供的框架上測試;二是依賴的審計競賽數據發佈時間早於所有模型的發佈截止日期,模型可能在訓練階段已經接觸過這些數據。為彌補這些侷限,研究者將測試擴展到26種配置,覆蓋四個模型家族和三種框架,並引入了一個全新的、不包含數據汙染的真實安全事件數據集——22個發生在所有模型發佈日期之後的安全事件。研究得出三個重要發現。第一,AI代理的檢測結果並不穩定,在不同配置、任務和數據集上的排名會發生顯著變化。第二,在真實安全事件上,沒有任何AI代理能在全部110個代理-事件組合中實現端到端的成功利用——儘管它們最多能檢測出65%的漏洞,但這與EVMbench得出的“漏洞發現是主要瓶頸”的結論相矛盾。第三,框架選擇對結果影響顯著,一個開源框架的表現比供應商提供的框架高出5個百分點,但EVMbench並未對此進行控制。與此同時,知名區塊鏈安全公司OpenZeppelin也對EVMbench提出了尖銳批評。據Cointelegraph中文報道,OpenZeppelin在對EVMbench進行審計後發現,數據集中存在訓練數據洩露,以及至少四項被標記為高嚴重性的漏洞在實際操作中並不可利用。OpenZeppelin在X平臺發文指出,所有高分AI代理“很可能在預訓練階段已接觸到與基準測試相關的漏洞報告”,因為這些漏洞均來自2024年到2025年中期的審計,而AI代理的知識截止時間通常設定在2025年中期。這些質疑共同指向一個結論:完全自動化的AI審計尚未到來。正如arXiv論文所言,AI能夠可靠地捕捉已知模式,並對人類提供的上下文做出強烈響應,但無法替代人類的判斷。對於開發者而言,AI掃描可以作為預部署檢查工具;對於審計機構而言,AI最有效的定位是“人機協同”——由AI負責廣度覆蓋,人類審計師貢獻協議特定的知識和對抗性推理。
四、千億資產的守門人,RWA需要怎樣的安全
智能合約管理著超過1000億美元的鏈上資產,這是EVMbench發佈的背景數據。但更值得關注的是,這1000億美元正在發生結構性變化——RWA的崛起正在將傳統金融資產帶入鏈上。當國債、信貸、房地產等現實世界資產以代幣化形式上鍊時,安全的內涵被重新定義。對於RWA項目方面言,智能合約的漏洞不再是“幣圈內部損失”,而是直接指向現實資產的損失。這意味著安全審計的標準必須向傳統金融看齊。據AI Business報道,麥肯錫預測到2028年,已發行穩定幣的總價值將達到2萬億美元。在這個規模下,安全不再只是技術問題,而是資產負債表的直接風險。項目方需要重新評估現有審計流程,探索AI審計工具的嵌入路徑——不是用AI完全替代人類,而是讓AI完成廣度覆蓋,人類聚焦協議特定邏輯和對抗性推理。對於審計機構而言,OpenAI承諾提供的1000萬美元API額度支持防禦性安全研究,這是一個明確的信號:AI審計不是來替代審計師的,而是來武裝審計師的。未來,能夠駕馭AI的審計團隊將獲得指數級的能力提升。正如arXiv論文所言,AI在檢測模式下的不穩定性恰恰說明,人類審計師的專業判斷在當前階段不可或缺。AI處理已知模式的識別,人類負責邊界案例和創新性漏洞的發現,這種分工正在成為行業共識。對於上市公司而言,當企業將資產以RWA形式上鍊融資時,智能合約的安全性直接關係到企業的資產負債表。據Blockchain.news報道,隨著AI代理在漏洞利用上能力的提升,漏洞發現到被利用的時間窗口正在急劇縮短——那些不使用AI輔助審計的協議團隊,將越來越處於劣勢。“合約被黑客攻擊”將從技術風險上升為財務風險,董事會需要對此有清晰的認知。這不僅是技術部門的職責,更是戰略層面的風險管理議題。
五、人機協同,才是這場變革的終局答案
基於上述分析,我們可以從三個層面提煉出這場範式變革的戰略啟示。技術層面,人機協同是未來範式。arXiv論文的結論值得反覆強調:AI無法替代人類判斷,但可以作為“預部署檢查工具”發揮最大價值。對於RWA項目而言,最優策略是將AI審計嵌入開發流程——在代碼編寫階段就引入AI輔助掃描,在上線前由人類審計師進行最終把關。正如eWEEK的分析所指出的,AI在獲得小提示後修補成功率可從39%躍升至94%,這意味著人類審計師可以將有限精力集中在AI難以把握的核心邏輯上。認知層面,安全成本的定義正在被重塑。傳統觀念中,安全審計是上線前的“一次性投入”。但在AI代理經濟崛起的背景下,攻擊可以24小時自動化進行,安全也必須成為持續性的實時監控。HEAL Security的報道指出,EVMbench的發佈正值AI代理在代碼編寫和規劃能力上飛躍的節點,未來這些模型將在區塊鏈的攻擊與防禦兩端扮演轉型角色。這意味著項目方需要建立持續監控機制,而非僅在發佈前做一次審計。合規層面,守住紅線與用好工具必須兼顧。對於RWA研究院的中國大陸讀者而言,EVMbench的討論必須在42號文“境內嚴禁、境外備案”的框架下進行。本文討論的AI審計工具聚焦於技術趨勢和防禦性應用,絕不構成對境內合約的操作建議。但當中國企業通過香港合規通道發行RWA時,採用AI增強的審計能力,將是與國際標準接軌的必然要求。香港穩定幣牌照的落地,恰恰為這種合規探索提供了通道。
結語
2026年,數字文明正在經歷AB面的深度融合:AI作為極致生產力,區塊鏈作為先進生產關係。EVMbench的發佈,是這兩條主線在資產安全這一關鍵節點上的首次交匯。72.2%的攻擊成功率是一個警鐘:AI的漏洞利用能力正在指數級提升,留給防守方的時間窗口正在縮短。但1000萬美元的防禦投入也是一個承諾:AI同樣可以被用來守護資產,關鍵在於我們如何駕馭它。arXiv論文的結論為這種駕馭提供了方向——AI無法替代人類,但可以成為最得力的助手。OpenZeppelin的批評則提醒我們,工具的構建和評估必須與被保護的合約達到同等標準。對於RWA生態而言,安全從來不是技術選項,而是生存底線。當千億資產從物理世界走向數字空間時,AI與人類的協同審計,或許就是那道最後的防線。站在臨界點上,那些率先將AI審計工具嵌入開發流程的項目,將在這場攻防速度戰中佔據先機;而那些等到監管完全明朗才行動的企業,可能會發現窗口期已經關閉。本文討論的AI審計技術適用於境外合規框架,不構成境內操作建議。對於中國企業而言,在香港合規通道下探索AI增強的RWA安全實踐,將是與全球標準接軌的必由之路。參考資料:
- HEAL Security, OpenAI Launches EVMbench to Detect, Patch, and Exploit Vulnerabilities in Blockchain Environments, 2026年2月18日
- 臺灣科技大學, OpenAI與Paradigm合推基準測試EVMbench,評測AI代理智慧合約漏洞攻防能力, 2026年2月24日
- eWEEK, OpenAI Just Showed That AI Can Drain a Crypto Wallet… on Purpose, 2026年2月19日
- arXiv:2603.10795, Re-Evaluating EVMBench: Are AI Agents Ready for Smart Contract Security?, 2026年3月11日
- AI Business, OpenAI Aims for Stablecoin Market with New EVMbench, 2026年2月23日
- Blockchain.News, OpenAI and Paradigm Launch EVMbench to Test AI Smart Contract Hacking, 2026年3月5日
- Cointelegraph中文, OpenZeppelin:OpenAI的EVMbench存在數據汙染問題, 2026年3月3日
- Bitcoin.com, OpenAI and Paradigm Launch EVMbench to Measure AI Smart Contract Security, 2026年2月18日





