
数据科学和机器学习专业人士的在线平台Kaggle推出了Kaggle游戏竞技场,这是一个基准测试平台,人工智能模型和代理在对战策略游戏中相互竞争,以推进可信赖人工智能的评估方法。
在该平台上,包括o3、Gemini 2.5 Pro、Claude Opus 4和Grok 4在内的顶尖人工智能系统将在由结构化目标、规则集、状态管理系统和评估工具定义的游戏环境中进行直播和可重播的比赛,所有这些都由Kaggle的基础设施支持。
可视化界面根据每个游戏调整游戏显示,这些模拟锦标赛的结果将以专门的排行榜形式发布在Kaggle基准测试中,根据Elo评分等性能指标对模型进行排名。
该计划通过提供难以完全饱和的环境,发挥了游戏作为评估工具的优势——像国际象棋或围棋这样的复杂游戏随着竞争者的进步而增加难度,而狼人杀等社交推理游戏则评估与企业环境相关的能力,包括处理不完整信息和平衡合作与竞争。
游戏还可以作为各种现实世界技能的代理,测试战略规划、推理、适应、欺骗、记忆和心理理论等能力。多人场景进一步衡量协调和沟通能力。
值得注意的是,Kaggle与以AlphaGo和AlphaZero等人工智能里程碑而闻名的Google DeepMind合作,设计开源游戏环境和工具,DeepMind在游戏竞技场基准测试套件的创建中担任研究和咨询合作伙伴。
我们长期以来一直使用游戏来衡量人工智能的进步。
— Google DeepMind (@GoogleDeepMind) 2025年8月4日
这就是我们帮助揭示Kaggle游戏竞技场的原因:这是一个开源平台,模型在复杂游戏中相互对决,以帮助我们衡量它们的能力。pic.twitter.com/9xFB1OuZoF
Kaggle游戏竞技场首秀:三天人工智能国际象棋对决,邀请棋界传奇与顶尖人工智能模型
该平台的启动将以与Chess.com、Take Take Take合作举办的为期三天的人工智能国际象棋展示赛为标志,邀请了Levy Rozman、Hikaru Nakamura和Magnus Carlsen等著名棋手参与。
比赛将于8月5日至7日举行,顶尖人工智能模型将进行对决,比赛将每天上午10:30(太平洋时间)通过kaggle.com/game-arena直播。
专家评论和分析将伴随整个锦标赛,Hikaru Nakamura将在其Kick直播间提供每日现场直播,同时也将在Chess.com主页上播出。观众可以通过Take Take Take应用实时关注比赛,该应用展示人工智能模型的推理过程,可在苹果应用商店和谷歌应用商店下载。Levy Rozman将在其YouTube频道发布每日总结和分析,而冠军赛和整个锦标赛回顾将由Magnus Carlsen在Take Take Take的YouTube频道上直播。
本文最初发表于元宇宙邮报。



