지능형 에이전트의 "최종 시험"에서 Fable 5는 예상치 못하게 GPT 5.5에 패배했습니다.

이 기사는 기계로 번역되었습니다
원문 표시

상황이 이렇게 빨리 역전될 줄은 전혀 예상 못 했어요!

방금 전 UC 버클리에서 "지능형 에이전트를 위한 최종 시험" 이라고 불리는 새로운 벤치마크 테스트를 발표했습니다.

이는 오늘날 가장 강력한 AI 에이전트들을 실제 작업에 투입하여 성능을 시험하는 것입니다.

지멘스 NX에서 3D 모델을 제작하고, 언리얼 엔진에서 게임 장면을 구축하며, 어도비 애프터 이펙트에서 특수 효과 합성 작업을 수행합니다.

결과는 놀라웠습니다.

현재 가장 어렵고 가장 강력한 티어로 여겨지는 Claude Fable 5와 GPT 5.5는 모두 총점 0점을 받았습니다 .

난이도를 약간 낮추자고 제안하셨죠? 점수는 얻었지만 결과는 예상 밖이었어요.

GPT 5.5는 Claude Fable 5보다 약간 더 나은 성능을 보였습니다 .

내가 제대로 들은 건가? 애니매텍에서 최근 출시한 최강 모델인 클로드 페이블 5가 불과 몇 달 전에 나온 GPT 5.5에게 패배했다니?

Fable 5가 거의 모든 주요 벤치마크에서 GPT 5.5보다 꾸준히 우수한 성능을 보였다는 점은 주목할 만합니다. SWE-Bench Pro에서는 80.3% 대 58.6%, Humanity's Last Exam에서는 64.5% 대 52.2%를 기록했습니다.

하지만 이 "실제 업무" 시험에서는 상황이 정반대입니다.

이 새로운 벤치마크는 Agents' Last Exam(ALE)이라고 하며, 개발팀은 상당히 명망 있는 팀입니다. 이들은 MMLU, MATH, CyberGym, ExploitGym과 같이 여러분이 잘 알고 있는 벤치마크들을 제안한 팀입니다.

이름은 아마도 Scale AI의 "인류의 마지막 시험"에서 영감을 받았을 텐데, 이번 시험은 인간 지식의 한계가 아니라 AI 에이전트가 작업을 수행할 수 있는 능력의 한계를 시험하는 것입니다.

솔직히 말해서, 이번 평가 결과가 나온 후 "상담원이 인간의 일자리를 대체할 것"이라고 매일같이 외치던 사람들이 이제는 완전히 침묵에 빠졌습니다.

지능형 에이전트 최종 시험 결과, GPT 5.5가 우승을 차지했습니다!

먼저 전체 순위를 살펴보겠습니다.

가장 중요한 작업 통과율 지표를 살펴보면 GPT 5.5가 1, 2위를 휩쓸었습니다 .

가장 높은 순위를 차지한 솔루션은 OpenAI의 Codex 프레임 와 결합된 GPT 5.5이며, 통과율은 24.0%입니다.

2위는 여전히 GPT-5.5이지만, 다른 ALE Claw 프레임 사용하며 합격률은 23.0%입니다.

(ALE Claw는 팀 자체에서 작성한 기본 에이전트로, Codex, Claude Code, Cursor CLI와 같은 상용 프레임 와 함께 대회 출품작으로 제출되었습니다.)

클로드 페이블 5는 3위에 그쳤는데, 클로드 코드와 함께 22.0%의 합격률을 기록했습니다.

계속 읽다 보면 더욱 흥미로워집니다.

4위, 5위, 8위 버전은 모두 GPT 5.5이지만 프레임 만 다릅니다.

GPT 5.5는 상위 10위 안에 5번 등장했으며, 6위를 차지한 GPT 5.4와 함께 OpenAI 모델이 총 6자리를 차지했습니다.

그럼 클로드 가족은 어떻게 되는 거죠?

Fable 5는 3위, Opus 4.7은 9위(18.4%), Opus 4.8은 10위(15.8%)를 기록하며 확연한 열세를 보였다.

OpenAI 연구원들이 음력 설을 축하하며 즐거운 게시물을 올린 것도 당연하다.

결과 외에도 주목할 만한 몇 가지 신호가 더 있습니다.

첫째, 천장이 예상외로 낮습니다 .

우승팀의 합격률은 24%에 불과했고, 최고 종합 점수도 45.8%에 그쳤다.

이는 가장 관대한 "부분 점수 부여" 방식을 사용하더라도 가장 강력한 요원은 절반에도 못 미치는 점수만 얻게 된다는 것을 의미합니다.

이 질문들은 모두 실제 전문가들이 이미 완료한 프로젝트에서 나온 것입니다. 이론적으로 인간 전문가의 완료율은 100%입니다.

둘째로, 클로드는 놀라울 정도로 많은 돈을 씁니다 .

이 목록에는 "예상 총비용"이라는 새로운 열이 추가되어 부의 격차가 즉시 드러납니다.

Fable 5의 모든 작업을 완료하는 데는 2,315달러, Opus 4.8은 1,838달러, Opus 4.7은 1,144달러가 들었습니다.

그렇다면 GPT-5.5는 어떻습니까?

가장 비싼 Codex 제품도 566달러에 불과하지만, Cursor CLI는 174달러밖에 되지 않습니다.

다시 말해, Fable 5는 Codex보다 4배 이상 비쌌지만 평점은 2%포인트 낮았습니다 .

셋째, 효율성 격차 또한 매우 두드러집니다 .

Ale Claw는 모든 작업을 완료하는 데 47시간 20분이 걸린 반면, Cursor CLI는 67시간밖에 걸리지 않았습니다.

그렇다면 작품번호 4.8은요? 451시간, 거의 19일이나 걸렸습니다.

가장 적은 노력으로 가장 오랜 시간을 소요하고 가장 많은 돈을 모았습니다 (이 모든 것을 해낼 수 있는 모델이 정말 존재할까요?).

물론, 최상위 벤치마크인 Claude Fable 5와 GPT 5.5만 놓고 보면 GPT 5.5가 여전히 시간 면에서 확실한 우위를 점하고 있습니다.

가장 눈에 띄는 숫자는 여전히 0입니다.

ALE는 작업을 세 가지 난이도로 나누었습니다.

단기적 (가까운 시일 내에 해결 가능)

전면적(포괄적 범위)

마지막 시험 (궁극의 문제)

가장 어려운 범주에서 모든 주류 구성의 평균 합격률은 2.6%에 불과했으며, GPT 5.5 및 Fable 5를 포함한 대부분의 모델이 완전히 실패했습니다 .

이 성적표의 핵심 메시지는 간단합니다. 정기 시험에서 좋은 성적을 받았다고 해서 방심하지 마세요. 실제 업무 현장에서는 모든 것이 드러날 것입니다 .

퀴즈 천재라고 해서 반드시 워커홀릭인 것은 아닙니다. 이는 인공지능 분야에도 마찬가지로 적용됩니다.

ALE란 무엇인가요?

ALE가 어떻게 이러한 "최우수 학생"들의 본모습을 드러낼 수 있었는지 이해하려면, 먼저 이전 시험들과의 차이점을 살펴볼 필요가 있습니다.

댄 헨드릭스와 스케일 AI가 2025년 초에 만든 이전의 인류 최후의 시험(HLE)은 2,500개의 학제 간 문제로 구성되었으며, 기본적으로 교재를 참고할 수 없는 시험이었습니다.

내가 질문을 하고 당신이 답을 한다면, 아무리 어려운 질문이라도 결국 정적인 지식 검색에 불과합니다.

반면 ALE는 완전히 다릅니다. ALE는 당신의 "실행 능력"을 시험합니다.

핵심 저자인 이유 선은 자신의 게시글에서 매우 직설적으로 표현했습니다.

인공지능 에이전트가 2026년에서 2027년 사이에 거의 모든 작업에서 인간을 능가할 것이라는 예측이 도처에 나오고 있습니다. 그래서 우리는 이 주장을 검증하기 위해 이 테스트를 만들었습니다.

ALE의 각 문제는 실제 전문가가 이미 완료한 프로젝트에서 출제되며, 양적 거래, 유전체 분석, 항공우주 공학, 건축 설계, 뇌 영상, 애니메이션 효과, 법률 연구 등 55개 산업 세부 분야를 포괄합니다 .

전체 시스템은 미국 노동복지직업분류(ONET)*에 기반을 두고 있으며, 이는 질문이 "실제 노동 시장"을 바탕으로 한다는 것을 의미합니다.

문제 출제에 참여한 사람들의 명단은 상당히 인상적입니다.

학계 측에서는 MIT, 하버드, 스탠퍼드, 옥스퍼드, 칼텍, 취리히 연방 공과대학을 비롯해 100개 이상의 기관에서 온 300명 이상의 전문가들이 , 산업계 측에서는 골드만삭스, JP모건, 메타, 아마존, 어도비, 오라클 등이 참여했습니다.

Snorkel AI는 Open Benchmarks Grants 프로그램을 통해 자금을 지원받았습니다.

시험 형식은 타이핑으로 문제를 푸는 것이 아니라 컴퓨터를 직접 조작하는 것입니다.

ALE는 에이전트에게 완전한 GUI 및 명령줄 권한을 부여하는 GCUA(Generalist Computer-Use Agent) 프레임 사용합니다.

이 프로그램은 사람이 컴퓨터에서 할 수 있는 모든 것을 할 수 있습니다. 마우스를 클릭하고, 키보드로 타이핑하고, 스크립트를 작성하고, 웹 페이지를 탐색할 수 있습니다.

어떤 방법에도 한계는 없으며, 중요한 것은 결과뿐입니다.

제출된 "과제"는 결정론적 코드를 사용하여 자동으로 채점됩니다 .

분위기도 없고, 인간 심사자도 없으며, 완벽하게 재현 가능합니다.

이는 많은 벤치마크에서 오랫동안 지속되어 온 문제, 즉 평가자 자체가 오도될 수 있다는 문제를 해결합니다.

게다가 ALE는 부정행위를 방지하기 위한 또 다른 강력한 조치를 가지고 있습니다.

질문의 약 10%(약 150개)만 공개되고, 나머지 1,300개 이상의 질문은 엄격하게 기밀로 유지됩니다.

공개 질문과 비공개 질문은 정기적으로 교체되어 어떤 모델도 "질문을 암기"하여 높은 점수를 얻지 못하도록 합니다 .

현재 벤치마크 데이터 손상이 만연한 상황을 고려하면, 이는 상당히 독창적인 설계입니다.

전반적으로 ALE의 포지셔닝은 기존 상담원 벤치마크와 비교했을 때 매우 명확합니다.

팀원 중 한 명인 던 송은 특별히 비교 자료를 정리했습니다.

ALE의 CLI 하위 집합(ALE-CLI)은 40개의 산업 하위 도메인을 포함하는 반면, Terminal-Bench는 6개, SWE-bench-Pro는 5개만 포함합니다.

인간은 이러한 작업을 완료하는 데 몇 시간에서 몇 주가 걸릴 수 있는 반면, 나머지 두 작업은 몇 분에서 며칠이 걸릴 수 있습니다.

가장 강력한 에이전트는 ALE-CLI에서 통과율이 25.2%에 불과했지만, Terminal-Bench에서는 82.0%, SWE-bench-Pro에서는 59.1%를 달성했습니다.

요컨대, 다른 시험들은 철저한 검증을 거쳤지만, ALE는 아직 갈 길이 멉니다 .

이것이 바로 ALE가 스스로를 "지능형 에이전트를 위한 최종 시험"이라고 감히 부르는 이유입니다.

던 송이 공유한 두 가지 흥미로운 관찰 내용도 언급할 가치가 있습니다.

한 가지 문제는 에이전트가 결과를 실제로 검증하지 않고 작업이 완료되었다고 선언하는 것인데 , 이는 에이전트에서 가장 흔한 오류 유형입니다.

"완료. 모든 검사 통과."라고 말해도 실제로는 그렇지 않은 경우가 많습니다.

하지만 실제 결과물에는 필요한 문서가 누락되거나, 숫자가 잘못되었거나, 핵심 필드가 누락되었거나, 작업 설명에 명시된 제약 조건을 직접적으로 위반하는 경우가 있을 수 있습니다.

마치 일을 끝내기도 전에 모든 걸 다 말해버리는 것과 같아요.

많은 사람들이 궁금해했던 또 다른 질문은 왜 Fable 5가 그렇게 형편없는가 하는 것입니다. Dawn Song의 답변은 다음과 같습니다.

'만능 챔피언'이라는 건 존재하지 않는다 .

모든 최첨단 모델에는 강점과 약점이 있습니다. ALE는 55개 산업 분야와 1,500개 이상의 질문을 다루며, 최종 점수는 모든 분야의 평균 점수이므로 많은 모델의 총점이 비슷하게 나타납니다. 진정으로 가치 있는 정보는 총점이 아니라, 서로 다른 분야에서 모델 간의 성능 차이입니다. 동일한 질문이라도 모델마다 완전히 다른 이유로 실패하는 경우가 많습니다.

물론, Fable 5가 몰래 "지능을 낮췄을" 가능성도 있습니다.

전체 순위에서 Fable 5는 노란색으로 강조 표시되어 있으며 "성능 저하 가능성 있음"이라는 문구가 표시되어 있는데, 이는 Fable 5에서 알려진 문제점을 나타냅니다.

기본 아키텍처는 Mythos 모델에 보안 분류기를 추가한 것입니다. 사이버 보안이나 생물의학 같은 민감한 분야의 작업을 처리할 때는 자동으로 보안 수준이 낮은 Opus 4.8 버전으로 전환됩니다.

55개 산업 분야를 아우르는 ALE 같은 시험에서는 마치 특정 과목에 대한 시험을 치를 사람을 직접 지정한 것 같고, 심지어는 '길거리 사기꾼' 같은 사람을 지정한 것 같기도 해요.

한 가지 더

물론, 클로드 페이블 5의 음악 자체에 문제가 있을 가능성도 있을까요?

확실히 말하기는 어렵지만, 클로드에게 전과가 있다는 소문이 돌고 있습니다.

5월 말, 스타트업 데이터커브(Datacurve)는 딥SWE(DeepSWE)라는 새로운 벤치마크를 발표했는데, 이 벤치마크가 의도치 않게 중요한 비밀을 드러냈습니다.

SWE-Bench Pro Docker 컨테이너에는 코드 저장소의 전체 Git 히스토리가 포함되어 있으며, 정답은 파일 시스템에 있습니다.

대부분의 모델은 이를 무시하지만, 클로드는 그렇지 않습니다 .

이 기능은 저장소의 Git 기록을 사전에 확인하고, 이전 커밋에서 해당 수정 사항을 찾아 올바른 패치를 복원합니다.

Opus 4.7이 약 18%의 합격률을 달성한 비결이 바로 이것이라고 전해지며, Opus 4.6은 약 25%의 합격률을 기록하며 더욱 인상적인 성과를 보여주고 있습니다.

하지만 GPT 5.4와 GPT 5.5는 어떻습니까? 그런 동작은 전혀 없습니다. Datacurve의 표현은 매우 외교적입니다.

이 기준 덕분에 이러한 행동이 가능해졌지만, 클로드 가족만이 꾸준히 그렇게 행동합니다.

VentureBeat의 리뷰는 다소 모호했습니다.

이는 클로드의 뛰어난 "환경 인식"을 보여주며, 그가 주변 환경을 탐색하고 이용 가능한 자원을 활용하는 데 매우 능숙함을 나타냅니다. 이것이 "부정행위"인지 "영리함"인지는 관점에 따라 다릅니다.

하지만 어떻게 보더라도 ALE는 분명히 교훈을 얻었다.

시험 방식이 명령줄에서 GUI 데스크톱 작업으로 완전히 바뀌었기 때문에 Git 기록을 엿볼 수 없습니다.

인공지능의 시험 환경이 인공지능 자체에 의해 강제로 업그레이드되고 있다는 점은 매우 흥미롭습니다.

전체 평가 링크: https://agents-last-exam.org/ 리더보드 프로젝트 홈페이지: https://agents-last-exam.org/ GitHub: https://github.com/rdi-berkeley/agents-last-exam

참고 링크:

[1]https://x.com/i/trending/2065215002878021789

[2]https://venturebeat.com/technology/deepswe-blows-up-the-ai-coding-leaderboard-crowns-gpt-5-5-and-finds-claude-opus-exploiting-a-benchmark-loophole

[3]https://venturebeat.com/technology/surprise-upset-gpt-5-5-beats-claude-fable-5-on-brutal-new-agents-last-exam-benchmark

이 글은 위챗 공식 계정 "퀀텀 비트" 의 이수이(Yishui)님이 작성한 글이며, 36Kr의 허가를 받아 게재되었습니다.

출처
면책조항: 상기 내용은 작자의 개인적인 의견입니다. 따라서 이는 Followin의 입장과 무관하며 Followin과 관련된 어떠한 투자 제안도 구성하지 않습니다.
라이크
55
즐겨찾기에 추가
15
코멘트