OpenAI가 GPT-5를 기술 면에서 Claude보다 앞지르도록 만든 방법: 가장 어려운 23개 질문을 조용히 건너뛰었습니다.

avatar
36氪
08-20
이 기사는 기계로 번역되었습니다
원문 표시

며칠 전, OpenAI 기자 회견에서 울트라맨은 GPT-5가 정상에 올랐다고 발표하면서, 세계 최고의 코딩 능력을 가지고 있다고 주장했습니다.

하지만 기자회견에서 큰 실수가 있었습니다. 52.8>69.1=30.8?

그 결과, 연간 수억 달러를 벌어들이는 OpenAI의 천재들이 만든 테이블이 전 세계적으로 인기를 얻게 되었습니다(왼쪽).

이 표는 원래 OpenAI 공식 블로그에서는 정확해 보였지만, 전 세계에 생중계되자 큰 버그가 있었습니다.

실수를 제쳐두고, 더 중요하지만 간과된 점은 GPT-5가 SWE-bench Verified 벤치마크에서 74.9%의 통과율을 달성했다는 것입니다.

이 점수는 74.5% 를 기록한 Anthropic의 Claude Opus 4.1보다 약간 높습니다.

이를 통해 GPT-5는 현재 소프트웨어 엔지니어링 작업 벤치마크에서 선두 모델이 되었습니다.

하지만 잠깐만요, 이 점수는... 조금 수상쩍은 것 같아요.

OpenAI는 SWE-bench Verified에서 500개의 테스트 작업을 모두 실행하지 않고 , 실행할 수 없는 23개의 작업을 제외하고 477개의 작업만을 기준으로 점수를 계산했습니다 .

SemiAnalysis는 이 문제를 언급하는 게시물을 구체적으로 게시했습니다.

Anthropic 역시 블로그에서 이 문제를 구체적으로 "암시"했습니다.

SWE-bench Verified는 총 500개의 문제를 풀었는데, GPT-5는 그중 477개만 풀었습니다. 나머지 23개 문제는 바로 건너뛰었습니다!

그의 상대인 클로드는 매우 정직했고 500개의 질문 중에 하나도 틀리지 않았습니다.

이제 상황의 본질이 완전히 바뀌었습니다.

물론 OpenAI도 이를 인정합니다.

GPT-4.1부터 OpenAI는 자사 인프라가 이 23개 문제를 실행할 수 없다고 "노트"에 명시했습니다. (OpenAI의 천재들이 어떤 종류의 문제를 실행할 수 없다고 했는지 궁금합니다.)

만약 이 23개의 쓸모없는 질문을 0점으로 계산한다면, GPT-4.1의 점수는 54.6%에서 52.1% 로 떨어질 것입니다.

이를 통해 23개 문항도 완전히 틀렸다고 간주할 경우, GPT-5의 전체 500개 문항 중 74.9%의 합격률은 약 71.4% ( 74.9%×477/500, 이는 매우 단순화한 계산임을 유의하세요 )로, Claude Opus 4.1이 500개 문항을 기준으로 달성한 74.5% 보다 상당히 낮다 는 것을 알 수 있습니다.

생략된 23개의 작업이 GPT-5와 "관련이 없다"는 것은 아니라는 점을 강조하는 것이 중요합니다.

오히려, 이 문제들은 대부분 검증된 문제 집합에서 가장 어려운 문제 들입니다.

제3자 분석에 따르면, 대부분의 모델은 검증된 데이터 세트에서 "4시간 이상 소요되는" 작업을 전혀 해결할 수 없습니다.

완료하는 데 1시간 이상 걸리는 "어려운" 문제에서는 모델의 성능이 크게 저하되었습니다.

오직 ClaudeSonnet4(비사고 모드), o3, GPT4.1만이 4시간 이상 걸리는 일부 작업을 완료할 수 있었습니다(각각 33%).

이처럼 극도로 어려운 작업은 모델의 포괄적인 역량에 대한 엄격한 테스트입니다.

GPT-5가 이러한 작업을 실행할 수 없다면, 전반적인 기능 면에서 아직 Claude 4.1을 능가하지 못했을 수도 있습니다.

Anthropic에서 제공한 정보에 따르면 Claude 4.1도 이러한 작업을 시도했을 가능성이 높습니다(Anthropic은 해당 모델이 검증된 작업을 건너뛰었다고 주장하지 않음). 따라서 74.5%라는 점수에는 모든 어려운 작업에 대한 도전이 포함됩니다 .

GPT-5의 74.9%는 이러한 "장애물"을 제거한 결과입니다.

이러한 불일치로 인해 발생하는 주요 논쟁점은 평가 점수의 비교 가능성과 보고 방법의 투명성입니다.

심판으로 사용된 SWE-bench Verified 데이터 세트 도 OpenAI가 직접 만들었습니다.

SemiAnalysis는 모델 간의 성능을 "공정하게" 비교하기 위해서는 swebench.com의 공식 SWE-bench 순위가 이 벤치마크에서 현재 모델의 성능을 가장 명확하게 설명하는 것일 수 있다고 생각합니다.

"검증" 하위 집합이 없고, 도구 사용이 제한되어 있으며(bash만 해당) 대부분의 스캐폴딩 콘텐츠는 공개적으로 표시됩니다.

이 벤치마크에서는 5월 14일의 Claude 4 Opus 체크포인트(67.6)가 GPT-5(65)보다 더 나은 성능을 보였습니다.

다음 질문은 SWE-bench가 무엇이고, "검증" 하위 집합은 무엇이며, 왜 추가적인 SWE-bench Verified가 필요한가입니다.

SWE-bench: AI 세계의 "프로그래머 대학 입학 시험"

SWE-벤치는 AI 분야의 "프로그래머 대학 입학 시험"이라고 생각하면 됩니다.

시험은 모두 실제 코딩 문제와 관련이 있습니다.

높은 점수를 받고 싶으신가요? 버그를 수정해야 할 뿐만 아니라, 새로운 버그를 만들어낼 수도 없습니다. 이 기준은 너무 엄격합니다.

옛날에는 AI가 20~30점밖에 못 받았는데, 그건 정말 끔찍한 일이었습니다.

예를 들어, 2024년 8월 5일 기준 SWE-bench 순위에 따르면 코딩 에이전트는 SWE-bench에서 상위 20%에 속했습니다.

SWE-bench Lite의 점수는 약간 더 좋아 43%에 도달했습니다.

하지만 이제 AI는 매우 강력해져서 기본적으로 상위 10개 모델이 50점 이상을 받을 수 있습니다.

OpenAI에서는 SWE-벤치가 너무 어렵고, 일부 작업은 전혀 해결할 수 없어 모델의 성능을 제대로 평가하는 것이 불가능하다고 생각합니다.

SWE-bench에 대한 간략한 소개

SWE-bench 테스트 세트의 각 샘플은 GitHub의 12개 오픈 소스 Python 저장소에서 해결된 GitHub 문제에서 나왔습니다.

각 샘플에는 솔루션 코드와 코드의 정확성을 검증하기 위한 단위 테스트가 포함된 연관된 풀 리퀘스트(PR)가 있습니다.

이러한 단위 테스트는 풀 리퀘스트의 솔루션 코드가 추가되기 전에는 실패하지만, 이후에는 통과하므로 FAIL_TO_PASS 테스트라는 이름이 붙었습니다.

각 샘플에는 PR이 병합되기 전과 후에 통과되는 PASS_TO_PASS 테스트가 연관되어 있어 PR이 코드 베이스의 기존 및 관련 없는 기능을 손상하는지 확인합니다.

SWE-bench의 각 예제에 대해 에이전트는 GitHub 이슈의 원본 텍스트(즉, 문제 설명)를 제공받고 코드 저장소에 접근할 수 있습니다.

그런 다음 에이전트는 코드베이스의 파일을 편집하여 문제를 해결해야 합니다. 테스트 케이스는 에이전트에게 제공되지 않습니다.

모델에서 제안한 수정 사항은 FAIL_TO_PASS 및 PASS_TO_PASS 테스트를 실행하여 평가됩니다.

FAIL_TO_PASS 테스트에 통과하면 해당 모델이 문제를 해결했다는 의미입니다.

PASS_TO_PASS 테스트에 통과하면 해당 편집으로 인해 코드 베이스의 관련 없는 부분이 실수로 손상되지 않았음을 나타냅니다.

두 테스트 세트를 모두 통과해야만 편집으로 원래 GitHub 문제가 완전히 해결됩니다.

제가 위에서 말한 것이 바로 이것입니다. 버그를 수정하는 것뿐만 아니라, 새로운 버그도 발생시키지 마세요.

SWE-bench 검증됨: 수동으로 선택된 하위 집합

SWE-bench Verified는 OpenAI가 SWE-bench 개발자와 협력하여 2024년 8월에 출시한 SWE-bench 벤치마크의 인간이 검증한 하위 집합 입니다.

OpenAI는 Python에 능숙한 93명의 소프트웨어 개발자 와 협력하여 SWE-벤치 샘플의 품질을 수동으로 검토했습니다.

먼저, SWE 벤치 테스트 세트에서 1699개의 무작위 샘플에 대해 "점수"를 매깁니다.

네 개의 점수:

0: 문제가 명확하게 제시되어 있으며, 성공적인 해결에 필요한 조건도 명확합니다.

1: 이 문제와 관련하여 아직 채워야 할 공백이 있지만 성공적인 솔루션에 필요한 사항을 해석할 수 있는 합리적인 방법이 있습니다.

2: 문제 설명이 모호하고 모호성이 발생할 여지가 있습니다. 성공적인 해결책이 어떤 특징을 가져야 하는지 명확하지 않습니다.

3: 더 많은 정보 없이는 무엇을 해야 할지 이해하는 것이 거의 불가능합니다.

2점과 3점을 받은 문제는 삭제하고, 0점과 1점을 받은 문제만 남겨둡니다.

이러한 접근 방식은 샘플 제거 시 오탐률이 높아지지만, 최종 데이터 세트의 샘플 품질에 대한 신뢰도를 높이는 데 도움이 됩니다.

그런 다음 0점과 1점의 점수를 받은 500개의 질문을 무작위로 선택하고 이를 최종 SWE-bench Verified 로 만듭니다.

점수로 돌아가면, 클로드는 "모든 과목" 시험을 치렀고, OpenAI는 "선택된 버전" 시험을 치렀습니다.

이 결과를 어떻게 직접 비교할 수 있을까요? 숫자 뒤에 숨겨진 이야기는 훨씬 더 흥미롭습니다.

기자회견에서 잘못된 차트를 그린 실수를 제외하면, 이 "은폐된" 사실은 별로 주목을 받지 못한 듯합니다.

OpenAI가 이 작은 실수를 이용해 SWE-Bench 점수를 은폐하려고 의도적으로 이런 짓을 했을지도 모른다는 음모론적 추측도 가능합니다.

결국, 진실을 숨기고 싶다면 가장 좋은 방법은 그것을 부정하는 것이 아니라, 더 큰 '진실'을 이용해 모든 사람의 주의를 돌리는 것입니다.

참고문헌:

https://x.com/세미분석_/상태/1955028150217478177

본 기사는 위챗 공개 계정 "신지위안" 에서 발췌하였으며, 저자는 신지위안이고, 편집자는 정혜이며, 36Kr.의 허가를 받아 게재되었습니다.

출처
면책조항: 상기 내용은 작자의 개인적인 의견입니다. 따라서 이는 Followin의 입장과 무관하며 Followin과 관련된 어떠한 투자 제안도 구성하지 않습니다.
라이크
즐겨찾기에 추가
코멘트