作者:@chaowxyz
原文鏈接:https://x.com/chaowxyz/status/2024358080910413973
聲明:本文為轉載內容,讀者可通過原文鏈接獲得更多信息。如作者對轉載形式有任何異議,請聯繫我們,我們將按照作者要求進行修改。轉載僅用於信息分享,不構成任何投資建議,不代表吳說觀點與立場。
全文如下:
--這不僅是合約能力測評,更是 Agent 的鏈上生存考試。
早上起床收到了一大堆私信,嚇得我還以為 AGI 實現了。仔細看是 OpenAI 新發布了智能合約基準測試,簡單講講這個。
一句話總結,Agent 理解、修復和運用智能合約的能力,並不是用來搶加密安全公司飯碗的。在我看來,這些能力指向的是一個更根本的問題:Agent 未來能否真正在加密環境中生存和行動。而 OpenAI 發佈的 evmbench,就是衡量這種生存能力的刻度尺。
過年在外面還來不及詳細解讀報告,簡單速攬了一遍,初步感覺是:這是個有創新,但總體還比較早期和簡陋的 benchmark。
基準使用了現實世界中 40 個真實項目裡發生的 120 個高危漏洞 。
考試分三科:科目一:找茬。尋找漏洞。科目二:修補。給它有漏洞的代碼,讓它把漏洞修好 。科目三:攻擊,AI 扮演黑客,在一個本地搭建的環境裡,給通過操作加密錢包進行攻擊。更具體的技術層不展開了,相比 evmbench 的方法論和題目細節本身,我更感興趣的是為什麼 OpenAI 會發布這個。
過去幾年間,OpenAI 並未特別展現出對加密領域的興趣。這次發佈裡顯然有加密 VC Paradigm 在推波助瀾,Paradigm 的動機自然不難理解,但發表的第一作者署名是 OpenAI,這說明 OpenAI 不只是被動配合,而是有主動意願的。
那這個意願從哪裡來?
一個直接的解釋是這是 OpenAI 內部 Preparedness Framework 的延伸,評估前沿模型在高風險場景下的能力邊界,智能合約安全只是其中一個部分。但這顯然不是全部。
Agent 利用加密網絡,不只是一種可能性,某種程度上是一種必然。OpenAI 當然也看得到這一點。在發佈報告裡也很明確提到 "we expect agentic stablecoin payments to grow"
但我認為這個命題並不止於 Agent 支付。我們現在討論的 Agent,大多數還是工具屬性的,人發出指令,Agent 執行,結果返回給人。但這個形態不會是終點。當 Agent 的數量足夠多、能力足夠強,它們之間顯然會開始直接協作:一個 Agent 僱傭另一個 Agent 完成子任務,一個 Agent 向另一個 Agent 購買數據或算力,一個 Agent 代表某個組織與另一個組織的 Agent 談判、簽約、履約。
人退出了交易的中間環節。
這時候一個根本問題浮出水面:當人不再居中,這套經濟體系靠什麼運轉?
人類社會解決信任和協作,靠的是幾千年碳基文明積累出來的一套體系,法律、聲譽、機構擔保等等。但這套體系的底層邏輯是為人設計的:參與方有持續身份,有社會後果,有被追責的可能。Agent 天然不滿足這個前提。它可以一秒發起千筆交易,可以隨時銷燬重建身份,可以無視任何司法邊界。
有人會說,那就把 Agent 和人類身份強行綁定,用人類授權來做擔保。但這等於把一套為碳基生命設計的枷鎖,套在一個運行速度和規模完全不同的物種身上,不只是低效,而是從根本上誤解了 Agent 是什麼。更何況,Agent 的演化方向必然指向更高的自主性。未來的 Agent 很可能不依附於任何人類個體,沒有 " 主人 ",沒有可以綁定的人類身份,它就是獨立的行動者。到那時,這套綁定邏輯連錨點都找不到。
把人類的信任基礎設施套在 Agent 社會上,就像用馬車的路規來管飛機。
Agent 社會需要自己的基礎設施。
智能合約提供了這種可能。它不依賴 " 你相信對方會履約 ",而是把履約條件寫進代碼,由網絡強制執行。沒有仲裁員,沒有等待期,條件觸發,結果自動發生。
更進一步,智能合約可能不只是結算工具,而是 Agent 組織形態本身——治理規則、資源分配、任務調度,全部在鏈上定義,執行靠代碼,不需要任何人居中。
而當一部分 Agent 就生活在鏈上,與各種合約交互本身就是它每一天的全部。如何讀懂一份合約,如何在複雜的協議裡找到自己的位置,如何識別陷阱、規避風險、在這個沒有客服、沒有申訴、沒有撤銷鍵的世界裡活下去。這一切依賴的,都是對合約的理解和運用。能力不夠,就是真實的損失,判斷失誤,就是永久的。
所以回頭看 EVMbench,它測的能力,讀懂合約、發現漏洞、構造交易、執行攻擊,本質上是在回答一個問題:Agent 是否已經學會做這個新世界生存。
OpenAI 大概率已經意識到,誰的 Agent 學會在鏈上世界自主生存,誰就拿到了下一階段的入場券。更進一步,未來的 agent 可能已經不能用誰的來形容。他們也許就是獨立的個體。
最後說點不相干的,大家集體 DM 我是因為我在一年半前曾經做過一個興趣項目 CryptoBench,感謝朋友們還記得它。GitHub - xxcg322/CryptoBench
這是第一個檢測 AI 在加密領域能力的 Benchmark,包括了從密碼學算法,區塊鏈底層,智能合約,生態,DAO 治理等多方面的測試,其中智能合約部分也包含了檢測和修復,而參考的漏洞本身,一部分和 OpenAI 這次參考的漏洞集是一樣的。
Benchmark 發佈的時候還是得到了不少朋友的支持和鼓勵。不過那時候我的感覺是,真正理解他的朋友並不是太多。雖然我很久沒提過這玩意了,但我對它還是很滿意和驕傲的。過幾天講講這個背後的故事,我為什麼認為這類的基準非常重要,我從過程中學到什麼,以及為什麼最近一年沒再提這事。
另外 Benchmark 本身也是我在 AI 領域非常感興趣的方向,我最近剛剛對 2019-2025 年發佈的 2 萬 2 千個各類的 AI benchmark 做了數據研究,也有很多有趣的發現。等我玩回來也給大家分享下。
原文鏈接:https://x.com/chaowxyz/status/2024358080910413973
聲明:本文為轉載內容,讀者可通過原文鏈接獲得更多信息。如作者對轉載形式有任何異議,請聯繫我們,我們將按照作者要求進行修改。轉載僅用於信息分享,不構成任何投資建議,不代表吳說觀點與立場。
全文如下:
--這不僅是合約能力測評,更是 Agent 的鏈上生存考試。
早上起床收到了一大堆私信,嚇得我還以為 AGI 實現了。仔細看是 OpenAI 新發布了智能合約基準測試,簡單講講這個。
一句話總結,Agent 理解、修復和運用智能合約的能力,並不是用來搶加密安全公司飯碗的。在我看來,這些能力指向的是一個更根本的問題:Agent 未來能否真正在加密環境中生存和行動。而 OpenAI 發佈的 evmbench,就是衡量這種生存能力的刻度尺。
過年在外面還來不及詳細解讀報告,簡單速攬了一遍,初步感覺是:這是個有創新,但總體還比較早期和簡陋的 benchmark。
基準使用了現實世界中 40 個真實項目裡發生的 120 個高危漏洞 。
考試分三科:科目一:找茬。尋找漏洞。科目二:修補。給它有漏洞的代碼,讓它把漏洞修好 。科目三:攻擊,AI 扮演黑客,在一個本地搭建的環境裡,給通過操作加密錢包進行攻擊。更具體的技術層不展開了,相比 evmbench 的方法論和題目細節本身,我更感興趣的是為什麼 OpenAI 會發布這個。
過去幾年間,OpenAI 並未特別展現出對加密領域的興趣。這次發佈裡顯然有加密 VC Paradigm 在推波助瀾,Paradigm 的動機自然不難理解,但發表的第一作者署名是 OpenAI,這說明 OpenAI 不只是被動配合,而是有主動意願的。
那這個意願從哪裡來?
一個直接的解釋是這是 OpenAI 內部 Preparedness Framework 的延伸,評估前沿模型在高風險場景下的能力邊界,智能合約安全只是其中一個部分。但這顯然不是全部。
Agent 利用加密網絡,不只是一種可能性,某種程度上是一種必然。OpenAI 當然也看得到這一點。在發佈報告裡也很明確提到 "we expect agentic stablecoin payments to grow"
但我認為這個命題並不止於 Agent 支付。我們現在討論的 Agent,大多數還是工具屬性的,人發出指令,Agent 執行,結果返回給人。但這個形態不會是終點。當 Agent 的數量足夠多、能力足夠強,它們之間顯然會開始直接協作:一個 Agent 僱傭另一個 Agent 完成子任務,一個 Agent 向另一個 Agent 購買數據或算力,一個 Agent 代表某個組織與另一個組織的 Agent 談判、簽約、履約。
人退出了交易的中間環節。
這時候一個根本問題浮出水面:當人不再居中,這套經濟體系靠什麼運轉?
人類社會解決信任和協作,靠的是幾千年碳基文明積累出來的一套體系,法律、聲譽、機構擔保等等。但這套體系的底層邏輯是為人設計的:參與方有持續身份,有社會後果,有被追責的可能。Agent 天然不滿足這個前提。它可以一秒發起千筆交易,可以隨時銷燬重建身份,可以無視任何司法邊界。
有人會說,那就把 Agent 和人類身份強行綁定,用人類授權來做擔保。但這等於把一套為碳基生命設計的枷鎖,套在一個運行速度和規模完全不同的物種身上,不只是低效,而是從根本上誤解了 Agent 是什麼。更何況,Agent 的演化方向必然指向更高的自主性。未來的 Agent 很可能不依附於任何人類個體,沒有 " 主人 ",沒有可以綁定的人類身份,它就是獨立的行動者。到那時,這套綁定邏輯連錨點都找不到。
把人類的信任基礎設施套在 Agent 社會上,就像用馬車的路規來管飛機。
Agent 社會需要自己的基礎設施。
智能合約提供了這種可能。它不依賴 " 你相信對方會履約 ",而是把履約條件寫進代碼,由網絡強制執行。沒有仲裁員,沒有等待期,條件觸發,結果自動發生。
更進一步,智能合約可能不只是結算工具,而是 Agent 組織形態本身——治理規則、資源分配、任務調度,全部在鏈上定義,執行靠代碼,不需要任何人居中。
而當一部分 Agent 就生活在鏈上,與各種合約交互本身就是它每一天的全部。如何讀懂一份合約,如何在複雜的協議裡找到自己的位置,如何識別陷阱、規避風險、在這個沒有客服、沒有申訴、沒有撤銷鍵的世界裡活下去。這一切依賴的,都是對合約的理解和運用。能力不夠,就是真實的損失,判斷失誤,就是永久的。
所以回頭看 EVMbench,它測的能力,讀懂合約、發現漏洞、構造交易、執行攻擊,本質上是在回答一個問題:Agent 是否已經學會做這個新世界生存。
OpenAI 大概率已經意識到,誰的 Agent 學會在鏈上世界自主生存,誰就拿到了下一階段的入場券。更進一步,未來的 agent 可能已經不能用誰的來形容。他們也許就是獨立的個體。
最後說點不相干的,大家集體 DM 我是因為我在一年半前曾經做過一個興趣項目 CryptoBench,感謝朋友們還記得它。GitHub - xxcg322/CryptoBench
這是第一個檢測 AI 在加密領域能力的 Benchmark,包括了從密碼學算法,區塊鏈底層,智能合約,生態,DAO 治理等多方面的測試,其中智能合約部分也包含了檢測和修復,而參考的漏洞本身,一部分和 OpenAI 這次參考的漏洞集是一樣的。
Benchmark 發佈的時候還是得到了不少朋友的支持和鼓勵。不過那時候我的感覺是,真正理解他的朋友並不是太多。雖然我很久沒提過這玩意了,但我對它還是很滿意和驕傲的。過幾天講講這個背後的故事,我為什麼認為這類的基準非常重要,我從過程中學到什麼,以及為什麼最近一年沒再提這事。
另外 Benchmark 本身也是我在 AI 領域非常感興趣的方向,我最近剛剛對 2019-2025 年發佈的 2 萬 2 千個各類的 AI benchmark 做了數據研究,也有很多有趣的發現。等我玩回來也給大家分享下。





