ARC Prize는 하드코어 ARC-AGI-2 벤치마크를 출시했으며, 2025년에 100만 달러의 상금을 걸고 경쟁을 벌일 것이라고 발표했습니다.
AI가 좁은 작업을 수행하는 것에서 벗어나 일반적이고 적응적인 지능을 보여주는 단계로 발전함에 따라, ARC-AGI-2 챌린지는 역량 격차를 파악하고 혁신을 적극적으로 유도하는 것을 목표로 합니다.
"좋은 AGI 벤치마크는 유용한 진행 지표 역할을 합니다. 더 나은 AGI 벤치마크는 역량을 명확히 구분합니다. 최고의 AGI 벤치마크는 이 모든 것을 수행하고 연구에 적극적으로 영감을 주며 혁신을 안내합니다." ARC Prize 팀은 말합니다.
ARC-AGI-2는 '최고' 부문을 달성하는 것을 목표로 하고 있습니다.
암기 그 이상
ARC Prize는 2019년 창설 이래 지속 가능한 벤치마크를 만들어 AGI를 향해 노력하는 연구자들에게 "북극성" 역할을 해왔습니다.
ARC-AGI-1과 같은 벤치마크는 유동적 지능(즉, 새로운 보이지 않는 작업에 학습을 적응시키는 능력)을 측정하는 데 중점을 두었습니다. 이는 암기만을 보상하는 데이터 세트와는 분명히 다릅니다.
ARC Prize의 사명은 또한 미래 지향적이며, 과학적 혁신을 위한 타임라인을 가속화하는 것을 목표로 합니다. 벤치마크는 단순히 진행 상황을 측정하기 위해 설계된 것이 아니라 새로운 아이디어를 고취하기 위해 설계되었습니다.
연구자들은 ARC-AGI-1을 사용하여 평가한 OpenAI의 o3가 2024년 말에 데뷔하면서 중요한 변화를 관찰했습니다. 딥 러닝 기반 대규모 언어 모델(LLM)과 추론 합성 엔진을 결합한 o3는 AI가 암기 암기에서 벗어나는 획기적인 진전을 이루었습니다.
그러나 진전에도 불구하고 o3와 같은 시스템은 여전히 비효율적이며 훈련 과정에서 상당한 인간의 감독이 필요합니다. 이러한 시스템에 진정한 적응성과 효율성을 도전하기 위해 ARC Prize는 ARC-AGI-2를 도입했습니다.
ARC-AGI-2: 인간-기계 격차 해소
ARC-AGI-2 벤치마크는 AI에 더 어렵지만 인간이 접근할 수 있는 가능성은 그대로 유지됩니다. 프런티어 AI 추론 시스템은 ARC-AGI-2에서 한 자릿수 백분율로 계속 점수를 받는 반면, 인간은 모든 과제를 두 번 이내에 해결할 수 있습니다.
그렇다면 ARC-AGI를 차별화하는 것은 무엇일까요? 그 디자인 철학은 "인간에게는 비교적 쉬운 반면 AI에게는 어렵거나 불가능한" 작업을 선택합니다.
벤치마크에는 다양한 가시성과 다음과 같은 특성을 지닌 데이터 세트가 포함됩니다.
- 상징적 해석: AI는 대칭성 검사와 같은 피상적인 비교에 집중하며, 대신 상징에 의미적 중요성을 부여하는 데 어려움을 겪습니다.
- 구성적 추론: AI는 여러 개의 상호 작용 규칙을 동시에 적용해야 할 때 실패합니다.
- 문맥적 규칙 적용: 시스템은 복잡한 맥락에 따라 규칙을 다르게 적용하지 못하며, 종종 표면적 패턴에 집착합니다.
현존하는 대부분의 벤치마크는 초인적인 능력에 초점을 맞춰 대부분 개인이 달성할 수 없는 규모의 고급스럽고 전문적인 기술을 테스트합니다.
ARC-AGI는 스크립트를 뒤집어 AI가 아직 할 수 없는 것, 특히 인간 지능을 정의하는 적응성을 강조합니다. 인간에게는 쉽지만 AI에게는 어려운 작업 간의 격차가 결국 0에 도달하면 AGI가 달성되었다고 선언할 수 있습니다.
하지만 AGI를 달성하는 것은 과제 해결 능력에만 국한되지 않습니다. 효율성(솔루션을 찾는 데 필요한 비용과 리소스)이 중요한 결정 요소로 부상하고 있습니다.
효율성의 역할
작업당 비용을 기준으로 성과를 측정하는 것은 문제 해결 능력뿐만 아니라 효율적으로 문제를 해결하는 능력으로서 지능을 측정하는 데 필수적입니다.
실제 사례에서는 이미 인간과 최첨단 AI 시스템 간의 효율성 격차가 드러났습니다.
- 인간 패널 효율성: 작업당 17달러의 비용으로 ARC-AGI-2 작업을 100% 정확도로 통과합니다.
- OpenAI o3: 초기 추정에 따르면 작업당 200달러라는 엄청난 비용으로 성공률은 4%입니다.
이러한 지표는 인간과 AI 간의 적응성과 자원 소비의 차이를 강조합니다. ARC Prize는 미래 리더보드의 점수와 함께 효율성에 대한 보고를 약속했습니다.
효율성에 초점을 맞추면 무차별 대입 솔루션을 "진정한 지능"으로 간주할 수 없습니다.
ARC Prize에 따르면 지능은 최소한의 리소스로 해결책을 찾는 것을 뜻하는데, 이는 인간만이 가질 수 있는 특성이지만 AI는 여전히 이를 달성하기 어렵습니다.
ARC상 2025
ARC Prize 2025는 이번 주에 Kaggle 에서 시작되어 총 상금 100만 달러를 약속하고 오픈소스 혁신에 대한 라이브 리더보드를 선보입니다. 이 대회는 ARC-AGI-2 과제를 효율적으로 해결할 수 있는 시스템으로의 진전을 촉진하는 것을 목표로 합니다.
2024년 총액에서 증가한 상금 부문은 다음과 같습니다.
- 최고상: Kaggle 효율성 한계 내에서 85%의 성공률을 달성하면 70만 달러 상금을 받습니다.
- 최고 점수 상금: 가장 높은 점수를 받은 작품에 75,000달러가 지급됩니다.
- 논문 상: ARC-AGI 과제 해결에 기여하는 혁신적인 아이디어에 대해 50,000달러 상금 제공.
- 추가 상금: 175,000달러. 자세한 내용은 대회 기간 중 발표됩니다.
이러한 인센티브는 연구자, 실험실 및 독립 팀 간의 협업을 촉진하는 동시에 공정하고 의미 있는 진전을 보장합니다.
작년 ARC Prize 2024에는 1,500개의 경쟁 팀이 참가하여 40개의 논문이 업계에서 인정받는 영향력을 보였습니다. 올해의 증가된 지분은 더 큰 성공을 육성하는 것을 목표로 합니다.
ARC Prize는 진보가 기존 시스템을 확장하는 것보다 새로운 아이디어에 달려 있다고 믿습니다. 효율적인 일반 시스템의 다음 획기적인 진전은 현재의 기술 거인에서 비롯되지 않을 수 있지만 복잡성과 호기심 많은 실험을 수용하는 대담하고 창의적인 연구자에서 비롯될 수 있습니다.
(이미지 출처: ARC Prize)
또한 참조: DeepSeek V3-0324는 오픈 소스 최초로 비추론 AI 모델을 능가합니다.

업계 리더로부터 AI와 빅데이터에 대해 더 자세히 알아보고 싶으신가요? 캘리포니아 암스테르담과 런던에서 열리는 AI & Big Data Expo를 확인해 보세요. 이 포괄적인 이벤트는 Intelligent Automation Conference , BlockX , Digital Transformation Week , Cyber Security & Cloud Expo 를 포함한 다른 주요 이벤트와 함께 진행됩니다.
여기에서 TechForge가 제공하는 다른 기업 기술 이벤트와 웨비나를 확인해 보세요.
ARC Prize가 지금까지 가장 강력한 AI 벤치마크인 ARC-AGI-2를 출시했습니다. 이 게시물은 AI News 에 처음 게재되었습니다.