LISABench 发布了其 2026 年第一季度评估,旨在通过实际测试确定检测 Web3 智能合约漏洞的领先 AI 模型。
该测试作为 2026 年人工智能安全领域的第一个主要基准测试推出,它还包含一个预测程序,通过社群投票给予奖励,并公开源代码供社群验证。
主要内容
- LISABench 将于 2026 年第一季度启动 Web3 智能合约漏洞发现评估。
- 七款领先的人工智能模型参与了此次活动,包括 GPT-5.2、 Gemini-3-pro-preview 和 Claude 4.5 Sonnet。
- 发起投票预测获胜队伍,并在 GitHub 上开源代码库。
LISABench Q1/2026 基准测试是什么?
LISABench 启动了 2026 年第一季度评估,旨在通过实际测试,选出检测 Web3 智能合约漏洞的最有效 AI 模型。
该公告于1月5日发布,恰逢2026背景,届时人工智能安全领域将迎来首个重要里程碑。此次里程碑的重点在于检测智能合约漏洞的能力,这对于加密货币生态系统至关重要,因为代码错误往往会导致挖矿和资产损失的风险。
与此同时,LISABench 通过社群投票推出了一项基于奖励的预测计划,旨在引流关注比赛,并生成更多关于每个模型的可靠性和社群期望的反馈数据。
参与模式以及社群如何进行监督
评估包括 7 款机型:KIMI K2、DeepSeek V3.2、QWen 3 30b-a3b、GLM 4.6、GPT-5.2、 Gemini-3-pro-preview 和 Claude 4.5 Sonnet。
该列表囊括了来自 Moonshot AI、阿里云、智普AI、OpenAI、谷歌和 Anthropic 等公司的模型,它们在同一平台上展开直接比较。这种开发者的多样性使得性能比较能够基于一致的标准,而不是仅仅依赖于单个项目的宣传。
预测第一季度获胜者的投票现已开启。此外,LISABench 表示,基准测试代码已在 GitHub 上开源,开发者可以查看并复现测试,从而比较结果。





