ARC-AGI-3는 역사상 최대 규모의 인간 대상 테스트를 공개했습니다. 모든 단계를 인간이 정복하면서 인공지능 능력 간의 격차가 드러났습니다.

이 기사는 기계로 번역되었습니다

원문 표시

ME News에 따르면, Beating의 모니터링 결과 4월 15일(UTC+8)에 ARC Prize 재단이 ARC-AGI-3 인간 수행 데이터셋을 공개했습니다. 이는 458명의 참가자가 참여한 ARC-AGI 시리즈 중 가장 큰 규모의 인간 테스트 연구입니다. 데이터셋에는 25개의 공개 환경에 대한 342개의 완전한 인간 조작 리플레이가 포함되어 있으며, 모든 데이터는 오픈 소스입니다. ARC-AGI-3에는 135개의 추상 추론 환경이 포함되어 있습니다. 참가자들은 어떠한 지침도 제공받지 않고 스스로 탐색하고, 규칙을 추론하고, 전략을 개발해야 합니다. 테스트는 샌프란시스코의 오프라인 테스트 센터에서 각 세션당 90분 동안 진행되었습니다. 참가자들은 기본 급여로 약 130달러를 받았으며, 각 환경을 성공적으로 완료할 때마다 5달러의 보너스가 지급되었습니다. 모든 테스트는 "최초 완료" 방식으로 진행되었는데, 이는 각 참가자가 완전히 새로운 문제 대면 때의 학습 및 적응 능력을 측정하기 위한 것입니다. 인간과 AI는 정보 격차 없이 완전히 동일한 정보를 제공받았습니다. 주요 결론: ARC-AGI-3의 모든 환경은 사람이 직접 완료했으며, 각 환경은 최소 두 명 이상의 독립적인 참가자가 완료했고, 대부분의 환경은 다섯 명 이상의 참가자가 완료했습니다. ARC Prize 재단은 "아직 일반 지능(AGI)을 달성하지 못했으며, 이 데이터 세트가 그 증거입니다."라고 밝혔습니다. ARC-AGI-3 프리뷰 이후, 공개 환경에 거의 백만 건에 달하는 AI 평가가 제출되었습니다. 이 데이터를 바탕으로 재단은 채점 규칙을 두 가지로 조정했습니다. 첫째, 각 레벨의 인간 기준점을 "두 번째로 좋은 플레이어"에서 "중간 플레이어"로 변경하여 점수에 미치는 운의 영향을 줄였습니다. 둘째, 단일 레벨의 최대 점수를 100%에서 115%로 높여 한 레벨에서의 저조한 성적이 전체 점수를 떨어뜨리는 것을 방지했습니다. 이 두 가지 조정의 결과로 인간과 AI 점수 모두 약 0.5%포인트 소폭 상승. (출처: ME)

출처

면책조항: 상기 내용은 작자의 개인적인 의견입니다. 따라서 이는 Followin의 입장과 무관하며 Followin과 관련된 어떠한 투자 제안도 구성하지 않습니다.

라이크

즐겨찾기에 추가

코멘트