ARC 奖已推出核心 ARC-AGI-2 基准,并宣布 2025 年竞赛的奖金为 100 万美元。
随着人工智能从执行狭窄任务发展到展示通用的自适应智能,ARC-AGI-2 挑战旨在发现能力差距并积极引导创新。
ARC 奖团队表示:“良好的 AGI 基准可以作为有用的进度指标。更好的 AGI 基准可以清楚地辨别能力。最好的 AGI 基准可以做到这一切,并积极激发研究并引导创新。”
ARC-AGI-2 正在努力实现“最佳”类别。
超越记忆
自 2019 年成立以来,ARC 奖一直通过创建持久的基准,成为努力实现 AGI 的研究人员的“北极星”。
ARC-AGI-1 等基准倾向于测量流体智力(即将学习适应新的未见过的任务的能力)。它与仅仅奖励记忆的数据集有着明显的不同。
ARC 奖的使命也具有前瞻性,旨在加速科学突破的进程。其基准不仅旨在衡量进展,还旨在激发新想法。
研究人员在 2024 年底 OpenAI 的 o3 首次亮相时观察到了重大转变,并使用 ARC-AGI-1 进行了评估。o3 将基于深度学习的大型语言模型 (LLM) 与推理综合引擎相结合,标志着 AI 摆脱死记硬背的突破。
然而,尽管取得了进展,像 o3 这样的系统仍然效率低下,并且在训练过程中需要大量人工监督。为了挑战这些系统的真正适应性和效率,ARC Prize 推出了 ARC-AGI-2。
ARC-AGI-2:缩小人机差距
ARC-AGI-2 基准对人工智能来说更严格,但对人类来说却同样容易上手。尽管前沿人工智能推理系统在 ARC-AGI-2 上的得分仍以个位数百分比计算,但人类可以在不到两次尝试的时间内解决所有任务。
那么,ARC-AGI 有何不同?其设计理念是选择“对人类来说相对容易,但对 AI 来说却很难或不可能完成的任务”。
该基准包括具有不同可见性和以下特征的数据集:
- 符号解释:人工智能努力为符号赋予语义意义,而是专注于对称性检查等浅层比较。
- 组合推理:当人工智能需要同时应用多个交互规则时,它就会失败。
- 上下文规则应用:系统无法根据复杂的上下文应用不同的规则,而通常只关注表面层次的模式。
现有的大多数基准都侧重于超人的能力,测试大多数人无法达到的高级专业技能。
ARC-AGI 颠覆了剧本,强调了人工智能目前无法做到的事情;特别是定义人类智能的适应性。当对人类来说很容易但对人工智能来说很难的任务之间的差距最终达到零时,AGI 就可以宣布实现了。
然而,实现 AGI 并不局限于解决任务的能力;效率(寻找解决方案所需的成本和资源)正在成为一个关键的决定因素。
效率的作用
通过每项任务的成本来衡量绩效对于衡量智力至关重要,因为智力不仅指解决问题的能力,还指高效解决问题的能力。
现实世界的例子已经显示出人类与前沿人工智能系统之间的效率差距:
- 人工小组效率:以 100% 的准确率通过 ARC-AGI-2 任务,每项任务的费用为 17 美元。
- OpenAI o3:早期估计显示,每项任务的成功率为 4%,成本高达 200 美元。
这些指标凸显了人类和人工智能在适应性和资源消耗方面的差异。ARC Prize 致力于在未来的排行榜上报告效率和得分。
对效率的关注使得蛮力解决方案无法被视为“真正的智能”。
根据 ARC Prize 的说法,智能包括用最少的资源找到解决方案——这是人类独有的品质,但对于人工智能来说仍然难以实现。
2025 年 ARC 奖
ARC Prize 2025 本周在Kaggle上启动,承诺总奖金 100 万美元,并展示开源突破的实时排行榜。该竞赛旨在推动能够有效应对 ARC-AGI-2 挑战的系统的发展。
奖项类别较 2024 年总数有所增加,包括:
- 大奖:在 Kaggle 效率限制内达到 85% 的成功率可获得 700,000 美元。
- 最高分奖金:得分最高的作品可获得 75,000 美元。
- 论文奖: 50,000 美元,奖励为解决 ARC-AGI 任务做出贡献的变革性想法。
- 额外奖金: 175,000 美元,详细信息将在比赛期间公布。
这些激励措施确保公平和有意义的进展,同时促进研究人员、实验室和独立团队之间的合作。
去年,ARC Prize 2024 吸引了 1,500 个参赛团队,产生了 40 篇具有行业影响力的论文。今年的参赛规模有所增加,旨在取得更大的成功。
ARC 奖认为,进步取决于新颖的想法,而不仅仅是扩展现有系统。高效通用系统的下一个突破可能不是来自当前的科技巨头,而是来自大胆、富有创造力、拥抱复杂性和好奇心的实验的研究人员。
(图片来源:ARC 奖)
另请参阅: DeepSeek V3-0324 在开源中领先非推理 AI 模型

想要从行业领袖那里了解更多有关人工智能和大数据的信息吗?请关注在阿姆斯特丹、加利福尼亚和伦敦举办的人工智能和大数据博览会。这项综合性活动与其他领先活动(包括智能自动化会议、 BlockX 、数字化转型周和网络安全与云博览会)在同一地点举办。
在此探索由 TechForge 主办的其他即将举行的企业技术活动和网络研讨会。