ARC-AGI-3公佈史上最大規模人類測試：所有關卡均被人類攻克，AI仍有差距

ME News 消息，4 月 15 日（UTC+8），據動察Beating 監測，ARC Prize 基金會公佈了 ARC-AGI-3 的人類表現數據集，這是 ARC-AGI 系列迄今規模最大的人類測試研究，共 458 名參與者。數據集包含 342 條完整的人類操作回放記錄，覆蓋 25 個公開環境，已全部開源。 ARC-AGI-3 包含 135 個抽象推理環境，測試者不會收到任何玩法說明，必須自行探索、推斷規則並制定策略。測試在舊金山的線下測試中心進行，每場 90 分鐘，參與者獲得約 130 美元底薪加每通關一個環境 5 美元獎勵。所有測試均為「首次通關」條件，即每人只看一次、只嘗試一次，衡量的是面對全新問題時的學習和適應能力。人類和 AI 獲得完全相同的信息，沒有任何信息差。核心結論：ARC-AGI-3 的所有環境均被人類通關，每個環境至少有兩名獨立參與者完成，多數環境有五人以上通關。ARC Prize 基金會稱「我們還沒有實現 AGI，這份數據集就是證據」。自 ARC-AGI-3 預覽以來，公開環境已收到近 100 萬份 AI 評測提交。基於這些數據，基金會同時宣佈兩項評分規則調整：一是將每關的人類基準從「第二好的玩家」改為「中位數玩家」，降低運氣因素對得分的影響；二是將單關得分上限從 100% 提高到 115%，避免一關表現不佳拖垮整體成績。兩項調整的淨效果是人類和 AI 得分均小幅上升約 0.5 個百分點。（來源：ME）

來源

免責聲明：以上內容僅為作者觀點，不代表Followin的任何立場，不構成與Followin相關的任何投資建議。

喜歡

評論