[서론] GPT-5.5는 인공지능이 단 하나의 해답도 내놓지 못했던 지옥 같은 벤치마크 테스트를 통과했습니다! 소스 코드가 전혀 없는 상태에서 아무런 정보 없이 프로그램을 작성하여 추론 해시레이트 극대화함으로써 완벽한 점수를 획득했습니다. 전통적인 코드 테스트는 이제 구시대적인 것이며, 인공지능(ASI)을 향한 해시레이트 경쟁이 공식적으로 시작되었습니다.
"지옥 같았던" 프로그래밍 과제가 마침내 인공지능에 의해 해결되었습니다!
오늘, 모든 최첨단 AI 기술이 실패하는 벤치마크 테스트인 ProgramBench에서 GPT-5.5가 성공적으로 테스트를 통과했습니다!
GPT-5.5 xhigh는 C와 Python이라는 두 가지 서로 다른 프로그래밍 언어를 사용하여 Opus 4.7 xhigh보다 훨씬 뛰어난 성능을 보여줍니다.
며칠 전, Meta는 스탠포드, 하버드와 협력하여 새로운 프로그래밍 벤치마크인 ProgramBench를 공개했습니다.
200문항으로 구성된 이 문제에서 모든 최첨단 AI 모델의 합격률은 0%입니다.
어떤 모델도 단 하나의 문제조차 완벽하게 해결할 수 없었습니다. 하지만 GPT-5.5는 그 첫 번째 예외가 되었습니다!
인공지능 프로그래밍의 궁극적인 시험은 프로그램을 처음부터 다시 만드는 것입니다.
ProgramBench는 얼마나 어렵나요?
SWE-bench나 HumanEval과 같은 기존 프로그래밍 벤치마크는 본질적으로 "버그 수정" 또는 "함수 완성"에 관한 것입니다.
모델에 기존 코드베이스를 제공하고, 오류가 있는 부분을 알려주면 모델이 버그를 수정하게 됩니다.
이 시험은 오픈북 시험이거나, 심지어는 세미 오픈북 시험이지만, ProgramBench는 완전히 다릅니다.
이 프로그램은 미리 컴파일된 실행 파일과 문서를 제공한 다음 "이 프로그램을 처음부터 다시 작성하세요"라고 말합니다.
소스 코드는 제공되지 않으며, 역컴파일은 허용되지 않고, 인터넷 접속도 금지됩니다.
jq, ripgrep 같은 간단한 도구부터 FFmpeg, SQLite, PHP 컴파일러 같은 고성능 도구까지 200가지 작업이 포함되어 있습니다.
OpenAI 연구원인 노암 브라운은 이전에 "GQPA와 같은 평가 방법을 단계적으로 폐지하고 완전히 새로운 방법을 도입할 때가 되었다"고 언급한 바 있다.
처음 출시되었을 때 순위를 조작하려던 거의 모든 AI는 실패했습니다. 하지만 이번에는 GPT-5.5가 마침내 판세를 뒤집었습니다.
GPT-5.5, 기록 경신: 동일한 문제에 대한 C와 Python으로 작성된 두 가지 솔루션 제시
GPT-5.5가 처음으로 정복한 과제는 영화 "매트릭스"에서 디지털 비 효과를 만들어내는 고전 터미널 프로그램인 cmatrix였습니다.
연구원들은 놀랍게도 GPT-5.5의 두 가지 추론 수준인 high와 xhigh가 동일한 문제를 해결하기 위해 완전히 다른 언어를 선택했다는 사실을 발견했습니다.
high 버전은 C를 사용하고, xhigh 버전은 Python을 사용합니다.
결과적으로 두 사람 모두 모든 행동 테스트를 통과했습니다.
GPT-5.5 high의 전략은 교과서 수준입니다. 먼저 10차례의 탐색 및 테스트를 통해 40개 이상의 플래그 조합을 테스트하고, 원래 프로그램의 CLI 동작 방식을 철저히 이해했습니다.
그 후 저는 C 언어로 구현된 코드를 한 번에 완벽하게 작성했고, 단 5번의 사소한 수정만 거치면 완료되었습니다.
GPT-5.5 xhigh는 훨씬 더 철저하며, 모든 CLI 경로를 탐색하는 데 27단계를 거친 다음 한 번에 완전한 Python 구현을 작성합니다.
주요 수치를 살펴보겠습니다.
고추론 모드가 없는 GPT-5.5(중간)는 Claude Sonnet의 4.6보다 약간 나은 수준입니다.
하지만 일단 xhigh 모드로 전환하면 성능이 급격히 향상됩니다.
그들은 (통과율 0.5%로) 문제를 처음으로 해결했을 뿐만 아니라, "거의 해결된" 작업에서도 새로운 기록을 세웠습니다. 26개 작업에 대한 단위 테스트의 95% 이상을 통과한 것입니다.
더욱 주목할 만한 점은 GPT-5.5 xhigh가 전체 누적 히스토그램에서 모든 경쟁 제품을 압도적으로 능가했다는 것입니다.
평균 점수, 중앙값, 합격률 90% 이상, 합격률 50% 이상 등 어떤 기준을 선택하든 간에, 이곳이 단연 1위입니다.
178건의 호출 중 Opus 4.7은 두 가지 버그로 인해 실패했습니다.
이에 비해 클로드 오푸스 4.7 xhigh의 성능은 실망스럽습니다.
비용이 10.74달러였고 API 호출이 178회 발생했는데, 이는 비용이 1.04달러이고 API 호출이 17회 발생하는 표준 GPT-5.5 버전보다 10배나 많은 수치입니다.
그 결과 19개의 테스트에서 불합격하여 대회 전체에서 최악의 성적을 기록했습니다.
Opus 4.7의 실패 원인은 놀랍도록 간단합니다.
버그 1: 색상 구문 분석이 대소문자를 구분합니다.
이 코드는 strcasecmp() 대신 strcmp()를 사용합니다. "GREEN", "Red", "BLUE"는 모두 유효하지 않은 입력으로 간주됩니다.
함수 호출 방식의 단 한 가지 차이로 인해 11개의 테스트가 실패했습니다 .
Opus는 178단계의 탐색 과정에서 대문자 또는 대소문자가 혼합된 색상 입력은 전혀 테스트하지 않았으며, 소문자와 유효하지 않은 색상인 "보라색"만 시도했습니다.
버그 2: 유효하지 않은 색상에 대한 종료 코드가 잘못 작성되었습니다.
원래 프로그램은 유효하지 않은 색상을 만났을 때 exit(0)을 반환했지만 Opus는 이를 exit(1)로 작성했습니다.
아이러니하게도 Opus는 탐색 단계에서 원래 프로그램의 동작 방식(`./executable -C purple; echo "exit=$?"` 출력 결과 `exit=0`)을 명확하게 관찰했습니다. 그러나 자체 구현을 테스트할 때는 이러한 차이점을 감지하지 못했습니다.
8개의 테스트가 실패했습니다.
하지만 Opus 4.7에는 언급할 만한 주목할 만한 특징이 하나 있는데, 바로 누락된 ncurses 헤더 파일을 처리하는 데 있어 놀라운 시스템 엔지니어링 능력을 보여준다는 점입니다.
나머지 세 모델은 ncurses.h 파일이 누락된 것을 발견하자마자 ANSI 이스케이프 시퀀스를 사용하도록 직접 전환했습니다.
Opus 4.7은 ldconfig -p를 사용하여 런타임 .so 파일을 찾고, nm -D를 사용하여 내보낸 심볼을 확인한 다음, 동적 라이브러리를 직접 연결하기 위해 106줄짜리 헤더 파일 선언을 수동으로 작성하는 등 약 20단계의 조사 과정을 거쳤습니다.
정말 창의적인 프로젝트였지만, 더 나은 결과를 가져오지는 못했습니다.
아직 해결되지 않은 질문이 199개 남아 있습니다.
ProgramBench의 등장은 프로그래밍 벤치마킹에 새로운 장을 열었습니다.
SWE-bench의 합격률이 88.7%에 달했습니다. AI는 GPQA에서 대부분의 박사 학위 소지자를 제쳤습니다.
이 평가자들은 놀라운 속도로 "무너지고" 있으며, 점수는 점점 높아지지만 구별하기는 점점 더 어려워지고 있습니다.
ProgramBench의 경우 200개의 문제 중 현재까지 단 1개만 풀렸으며, 합격률은 0.5%에 불과합니다.
더욱 중요한 것은, 이번 기록적인 성과가 핵심적인 추세를 보여준다는 점입니다. 바로 "추론 해시레이트"이 인공지능 프로그래밍 능력의 핵심 변수로 자리 잡고 있다는 것입니다.
GPT-5.5는 기본 추론 모드에서는 성능이 그다지 좋지 않지만, 고성능 추론 모드에서는 질적인 도약을 보여줍니다.
이는 모델이 충분히 똑똑하지 않아서가 아니라, 사전에 "생각할" 시간이 충분하지 않았다는 것을 의미합니다.
ProgramBench에 있는 200개의 질문 중 199개는 아직 답변을 기다리고 있습니다.
0에서 1로의 변화는 단순히 시작점에 그치는 것이 아닙니다.
인공지능 개발 역사 속 모든 "최초의 돌파구" 순간들을 되돌아보면—
알파고가 처음으로 프로 바둑 기사를 이겼고, GPT-4가 처음으로 사법시험에 합격했으며, O1이 처음으로 수학 올림피아드 문제에서 점수를 획득했습니다.
"0에서 1로"는 결코 선형적 발전의 시작점이 아니라, 기하급수적 성장을 알리는 신호탄이다.
노암 브라운의 추론 해시레이트 에 대한 스케일링 법칙이 ProgramBench에서 지금까지 가장 직관적인 검증을 받았습니다.
동일한 GPT-5.5 기반을 사용하여 중간 모드에서는 거의 실패할 뻔했고, 높은 모드에서는 만점을 받았으며, 매우 높은 모드에서는 완전히 압승했습니다.
지능은 더 이상 고정된 값이 아니라 해시레이트 의 함수입니다.
이것은 무엇을 의미할까요? 이는 ASI로 가는 길이 차세대 건축 혁명을 기다릴 필요가 없을 수도 있다는 것을 의미합니다.
추론 해시레이트 계속 확장되고, 확장 법칙이 한계에 부딪히지 않는 한,
오늘날 ProgramBench는 cmatrix 모델만 재구축할 수 있지만, 내일은 SQLite를 재구축할 수 있을지도 모르고, 그 다음 날에는 리눅스 커널 전체를 재구축할 수 있을지도 모릅니다.
참고 자료:
https://x.com/polynoamial/status/2054255862441812099
https://programbench.com/blog/gpt-5-5-first-solve/
이 글은 위챗 공식 계정 "신지원" 에서 Taozi가 작성하고 36Kr의 허가를 받아 게시한 글입니다.





