LISABench 發佈了其 2026 年第一季度評估,旨在通過實際測試確定檢測 Web3 智能合約漏洞的領先 AI 模型。
該測試作為 2026 年人工智能安全領域的第一個主要基準測試推出,它還包含一個預測程序,通過社群投票給予獎勵,並公開源代碼供社群驗證。
主要內容
- LISABench 將於 2026 年第一季度啟動 Web3 智能合約漏洞發現評估。
- 七款領先的人工智能模型參與了此次活動,包括 GPT-5.2、 Gemini-3-pro-preview 和 Claude 4.5 Sonnet。
- 發起投票預測獲勝隊伍,並在 GitHub 上開源代碼庫。
LISABench Q1/2026 基準測試是什麼?
LISABench 啟動了 2026 年第一季度評估,旨在通過實際測試,選出檢測 Web3 智能合約漏洞的最有效 AI 模型。
該公告於1月5日發佈,恰逢2026背景,屆時人工智能安全領域將迎來首個重要里程碑。此次里程碑的重點在於檢測智能合約漏洞的能力,這對於加密貨幣生態系統至關重要,因為代碼錯誤往往會導致挖礦和資產損失的風險。
與此同時,LISABench 通過社群投票推出了一項基於獎勵的預測計劃,旨在引流關注比賽,並生成更多關於每個模型的可靠性和社群期望的反饋數據。
參與模式以及社群如何進行監督
評估包括 7 款機型:KIMI K2、DeepSeek V3.2、QWen 3 30b-a3b、GLM 4.6、GPT-5.2、 Gemini-3-pro-preview 和 Claude 4.5 Sonnet。
該列表囊括了來自 Moonshot AI、阿里雲、智普AI、OpenAI、谷歌和 Anthropic 等公司的模型,它們在同一平臺上展開直接比較。這種開發者的多樣性使得性能比較能夠基於一致的標準,而不是僅僅依賴於單個項目的宣傳。
預測第一季度獲勝者的投票現已開啟。此外,LISABench 表示,基準測試代碼已在 GitHub 上開源,開發者可以查看並復現測試,從而比較結果。





