
資料科學和機器學習專業人士的線上平臺Kaggle推出了Kaggle遊戲競技場,這是一個基準測試平臺,人工智慧模型和代理在對戰策略遊戲中相互競爭,以推進可信賴人工智慧的評估方法。
在該平臺上,包括o3、Gemini 2.5 Pro、Claude Opus 4和Grok 4在內的頂尖人工智慧系統將在由結構化目標、規則集、狀態管理系統和評估工具定義的遊戲環境中進行直播和可重播的比賽,所有這些都由Kaggle的基礎設施支援。
視覺化介面根據每個遊戲調整遊戲顯示,這些模擬錦標賽的結果將以專門的排行榜形式釋出在Kaggle基準測試中,根據Elo評分等效能指標對模型進行排名。
該計劃透過提供難以完全飽和的環境,發揮了遊戲作為評估工具的優勢——像國際象棋或圍棋這樣的複雜遊戲隨著競爭者的進步而增加難度,而狼人殺等社交推理遊戲則評估與企業環境相關的能力,包括處理不完整資訊和平衡合作與競爭。
遊戲還可以作為各種現實世界技能的代理,測試戰略規劃、推理、適應、欺騙、記憶和心理理論等能力。多人場景進一步衡量協調和溝通能力。
值得注意的是,Kaggle與以AlphaGo和AlphaZero等人工智慧里程碑而聞名的Google DeepMind合作,設計開源遊戲環境和工具,DeepMind在遊戲競技場基準測試套件的建立中擔任研究和諮詢合作伙伴。
我們長期以來一直使用遊戲來衡量人工智慧的進步。
— Google DeepMind (@GoogleDeepMind) 2025年8月4日
這就是我們幫助揭示Kaggle遊戲競技場的原因:這是一個開源平臺,模型在複雜遊戲中相互對決,以幫助我們衡量它們的能力。pic.twitter.com/9xFB1OuZoF
Kaggle遊戲競技場首秀:三天人工智慧國際象棋對決,邀請棋界傳奇與頂尖人工智慧模型
該平臺的啟動將以與Chess.com、Take Take Take合作舉辦的為期三天的人工智慧國際象棋展示賽為標誌,邀請了Levy Rozman、Hikaru Nakamura和Magnus Carlsen等著名棋手參與。
比賽將於8月5日至7日舉行,頂尖人工智慧模型將進行對決,比賽將每天上午10:30(太平洋時間)透過kaggle.com/game-arena直播。
專家評論和分析將伴隨整個錦標賽,Hikaru Nakamura將在其Kick直播間提供每日現場直播,同時也將在Chess.com主頁上播出。觀眾可以透過Take Take Take應用實時關注比賽,該應用展示人工智慧模型的推理過程,可在蘋果應用商店和谷歌應用商店下載。Levy Rozman將在其YouTube頻道釋出每日總結和分析,而冠軍賽和整個錦標賽回顧將由Magnus Carlsen在Take Take Take的YouTube頻道上直播。
本文最初發表於元宇宙郵報。





