ARC-AGI-3公佈史上最大規模人類測試:所有關卡均被人類攻克,AI仍有差距
ME News 消息,4 月 15 日(UTC+8),據 動察Beating 監測,ARC Prize 基金會公佈了 ARC-AGI-3 的人類表現數據集,這是 ARC-AGI 系列迄今規模最大的人類測試研究,共 458 名參與者。數據集包含 342 條完整的人類操作回放記錄,覆蓋 25 個公開環境,已全部開源。 ARC-AGI-3 包含 135 個抽象推理環境,測試者不會收到任何玩法說明,必須自行探索、推斷規則並制定策略。測試在舊金山的線下測試中心進行,每場 90 分鐘,參與者獲得約 130 美元底薪加每通關一個環境 5 美元獎勵。所有測試均為「首次通關」條件,即每人只看一次、只嘗試一次,衡量的是面對全新問題時的學習和適應能力。人類和 AI 獲得完全相同的信息,沒有任何信息差。 核心結論:ARC-AGI-3 的所有環境均被人類通關,每個環境至少有兩名獨立參與者完成,多數環境有五人以上通關。ARC Prize 基金會稱「我們還沒有實現 AGI,這份數據集就是證據」。 自 ARC-AGI-3 預覽以來,公開環境已收到近 100 萬份 AI 評測提交。基於這些數據,基金會同時宣佈兩項評分規則調整:一是將每關的人類基準從「第二好的玩家」改為「中位數玩家」,降低運氣因素對得分的影響;二是將單關得分上限從 100% 提高到 115%,避免一關表現不佳拖垮整體成績。兩項調整的淨效果是人類和 AI 得分均小幅上升約 0.5 個百分點。 (來源:ME)
來源
免責聲明:以上內容僅為作者觀點,不代表Followin的任何立場,不構成與Followin相關的任何投資建議。
喜歡
收藏
評論
分享





