ARC Prize 推出迄今為止最嚴格的 AI 基準:ARC-AGI-2

avatar
AI News
03-26
本文為機器翻譯
展示原文

ARC 獎已推出核心 ARC-AGI-2 基準,並宣佈 2025 年競賽的獎金為 100 萬美元。

隨著人工智能從執行狹窄任務發展到展示通用的自適應智能,ARC-AGI-2 挑戰旨在發現能力差距並積極引導創新。

ARC 獎團隊表示:“良好的 AGI 基準可以作為有用的進度指標。更好的 AGI 基準可以清楚地辨別能力。最好的 AGI 基準可以做到這一切,並積極激發研究並引導創新。”

ARC-AGI-2 正在努力實現“最佳”類別。

超越記憶

自 2019 年成立以來,ARC 獎一直通過創建持久的基準,成為努力實現 AGI 的研究人員的“北極星”。

ARC-AGI-1 等基準傾向於測量流體智力(即將學習適應新的未見過的任務的能力)。它與僅僅獎勵記憶的數據集有著明顯的不同。

ARC 獎的使命也具有前瞻性,旨在加速科學突破的進程。其基準不僅旨在衡量進展,還旨在激發新想法。

研究人員在 2024 年底 OpenAI 的 o3 首次亮相時觀察到了重大轉變,並使用 ARC-AGI-1 進行了評估。o3 將基於深度學習的大型語言模型 (LLM) 與推理綜合引擎相結合,標誌著 AI 擺脫死記硬背的突破。

然而,儘管取得了進展,像 o3 這樣的系統仍然效率低下,並且在訓練過程中需要大量人工監督。為了挑戰這些系統的真正適應性和效率,ARC Prize 推出了 ARC-AGI-2。

ARC-AGI-2:縮小人機差距

ARC-AGI-2 基準對人工智能來說更嚴格,但對人類來說卻同樣容易上手。儘管前沿人工智能推理系統在 ARC-AGI-2 上的得分仍以個位數百分比計算,但人類可以在不到兩次嘗試的時間內解決所有任務。

那麼,ARC-AGI 有何不同?其設計理念是選擇“對人類來說相對容易,但對 AI 來說卻很難或不可能完成的任務”。

該基準包括具有不同可見性和以下特徵的數據集:

  • 符號解釋:人工智能努力為符號賦予語義意義,而是專注於對稱性檢查等淺層比較。
  • 組合推理:當人工智能需要同時應用多個交互規則時,它就會失敗。
  • 上下文規則應用:系統無法根據複雜的上下文應用不同的規則,而通常只關注表面層次的模式。

現有的大多數基準都側重於超人的能力,測試大多數人無法達到的高級專業技能。

ARC-AGI 顛覆了劇本,強調了人工智能目前無法做到的事情;特別是定義人類智能的適應性。當對人類來說很容易但對人工智能來說很難的任務之間的差距最終達到零時,AGI 就可以宣佈實現了。

然而,實現 AGI 並不侷限於解決任務的能力;效率(尋找解決方案所需的成本和資源)正在成為一個關鍵的決定因素。

效率的作用

通過每項任務的成本來衡量績效對於衡量智力至關重要,因為智力不僅指解決問題的能力,還指高效解決問題的能力。

現實世界的例子已經顯示出人類與前沿人工智能系統之間的效率差距:

  • 人工小組效率:以 100% 的準確率通過 ARC-AGI-2 任務,每項任務的費用為 17 美元。
  • OpenAI o3:早期估計顯示,每項任務的成功率為 4%,成本高達 200 美元。

這些指標凸顯了人類和人工智能在適應性和資源消耗方面的差異。ARC Prize 致力於在未來的排行榜上報告效率和得分。

對效率的關注使得蠻力解決方案無法被視為“真正的智能”。

根據 ARC Prize 的說法,智能包括用最少的資源找到解決方案——這是人類獨有的品質,但對於人工智能來說仍然難以實現。

2025 年 ARC 獎

ARC Prize 2025 本週在Kaggle上啟動,承諾總獎金 100 萬美元,並展示開源突破的實時排行榜。該競賽旨在推動能夠有效應對 ARC-AGI-2 挑戰的系統的發展。

獎項類別較 2024 年總數有所增加,包括:

  • 大獎:在 Kaggle 效率限制內達到 85% 的成功率可獲得 700,000 美元。
  • 最高分獎金:得分最高的作品可獲得 75,000 美元。
  • 論文獎: 50,000 美元,獎勵為解決 ARC-AGI 任務做出貢獻的變革性想法。
  • 額外獎金: 175,000 美元,詳細信息將在比賽期間公佈。

這些激勵措施確保公平和有意義的進展,同時促進研究人員、實驗室和獨立團隊之間的合作。

去年,ARC Prize 2024 吸引了 1,500 個參賽團隊,產生了 40 篇具有行業影響力的論文。今年的參賽規模有所增加,旨在取得更大的成功。

ARC 獎認為,進步取決於新穎的想法,而不僅僅是擴展現有系統。高效通用系統的下一個突破可能不是來自當前的科技巨頭,而是來自大膽、富有創造力、擁抱複雜性和好奇心的實驗的研究人員。

(圖片來源:ARC 獎)

另請參閱: DeepSeek V3-0324 在開源中領先非推理 AI 模型

想要從行業領袖那裡瞭解更多有關人工智能和大數據的信息嗎?請關注在阿姆斯特丹、加利福尼亞和倫敦舉辦的人工智能和大數據博覽會。這項綜合性活動與其他領先活動(包括智能自動化會議BlockX數字化轉型周網絡安全與雲博覽會)在同一地點舉辦。

在此探索由 TechForge 主辦的其他即將舉行的企業技術活動和網絡研討會。

ARC 獎推出迄今為止最嚴格的 AI 基準:ARC-AGI-2首次出現在AI News上。

來源
免責聲明:以上內容僅為作者觀點,不代表Followin的任何立場,不構成與Followin相關的任何投資建議。
喜歡
收藏
評論