GPT-5.5가 등장하여 전체 순위표에서 1위를 차지하고 Opus 4.7을 압도적으로 제압했습니다. OpenAI가 오늘 밤 명예를 회복했습니다.

36氪

04-24

이 기사는 기계로 번역되었습니다

원문 표시

실리콘 밸리는 밤새도록 깨어있습니다!

방금 전, GPT-5.5가 놀라운 데뷔를 했습니다. 이는 OpenAI가 지금까지 선보인 차세대 플래그십 모델 중 가장 강력하고 다재다능한 모델입니다.

이는 완전히 새로운 차원의 지능을 나타내며, 에이전트 시대의 "본래의 두뇌"로 진화한 것입니다 .

맞습니다, 많은 사람들이 기대했던 "스퍼드"가 드디어 오늘 공개되었습니다.

특히 주목할 만한 점은 GPT-5.5가 모든 벤치마크 테스트에서 1위를 차지했다는 것입니다!

프로그래밍, 추론, 수학 또는 지능형 에이전트 작업 등 어떤 분야에서든 Claude Opus 4.7과 Gemini 3.1 Pro는 GPT-5.5에 비해 성능이 현저히 떨어집니다.

이전 세대와 비교했을 때, GPT-5.5 사고 방식은 판도를 바꾸는 혁신이며, 세대 차이를 만들어냅니다.

AAI 테스트에서 동일한 출력 토큰을 사용했을 때 GPT-5.5 스마트 인덱스는 세계 최고 성능을 기록했으며, ARC-AGI-2에서도 최첨단 기록을 경신했습니다.

울트라맨은 "GPT-5.5는 똑똑하기도 하고 빠르기도 하네."라며 칭찬을 아끼지 않았다.

각 토큰의 처리 속도는 GPT-5.4와 동일하며, 작업당 사용되는 토큰 수는 크게 줄어듭니다.

그것은 당신이 해야 할 일을 거의 완벽하게 이해할 수 있습니다!

그렉 총장은 흥분하며 "이것은 컴퓨터를 사용하는 완전히 새로운 방식을 향한 한 걸음입니다."라고 말했습니다.

오늘부터 GPT-5.5가 ChatGPT와 Codex에서 공식 출시되었습니다.

새로운 프로그래밍의 왕이 등장했고, Opus 4.7은 그 자리에서 내려왔습니다.

먼저 핵심 프로그래밍 분야를 살펴보겠습니다. GPT-5.5가 놀라운 부활을 이루었습니다!

OpenAI의 설명에 따르면, 이는 현재까지 가장 강력한 지능형 에이전트 프로그래밍 모델입니다.

Terminal-Bench 2.0은 전체 에이전트 엔지니어링 프로세스의 기능을 테스트합니다.

이 문제는 모델에게 최종 환경과 모호한 목표를 제공하여 모델이 자체 경로를 계획하고, 도구를 호출하고, 스크립트를 작성하고, 오류를 처리하고, 반복적으로 실행할 수 있도록 합니다.

여기서 GPT-5.5는 82.7%, GPT-5.4는 75.1%, Claude Opus 4.7은 겨우 69.4%의 성능을 보였습니다. 무려 13%포인트 차이로, 압도적인 승리입니다.

OpenAI의 자체 Expert-SWE 벤치마크는 사람이 평균 20시간 정도 소요하는 장기 프로그래밍 작업을 전문적으로 테스트하는데, GPT-5.5는 73.1%의 점수를 기록하여 GPT-5.4의 68.5%보다 높은 점수를 받았습니다.

GitHub에서 실제 문제 해결 능력을 측정하는 최고의 지표로 널리 인정받는 업계 벤치마크인 SWE-Bench Pro에서 GPT-5.5는 58.6%의 점수를 기록했으며, 이는 Claude Opus 4.7(64.3%)보다 약간 낮은 수치입니다.

하지만 OpenAI는 이 데이터 옆에 별표를 표시하고 "Anthropic은 문제의 일부 하위 집합에서 과적합(메모리) 징후를 보인다"라고 적었습니다.

다시 말해서, Opus 4.7이 시험에서 좋은 성적을 거두긴 했지만, 답을 암기한 것 같다는 생각이 듭니다.

Codex 연구원들은 SWE-Bench가 더 이상 최고 수준의 프로그래밍 실력을 측정하는 신뢰할 만한 도구가 아니라고 단호하게 밝혔습니다.

가장 중요한 점은 세 가지 평가 모두에서 GPT-5.5가 GPT-5.4보다 적은 토큰을 사용하면서도 전반적으로 더 나은 성능을 보였다는 것입니다.

이러한 기능은 Codex에서 더욱 분명하게 드러납니다.

이 도구는 구현 및 리팩토링부터 디버깅, 테스트 및 검증에 이르기까지 프로그래밍 작업 전반을 완료할 수 있습니다.

예를 들어, GPT-5.5를 사용하여 아르테미스 II 우주 임무를 위한 시각화 애플리케이션을 만들어 보겠습니다.

먼저, 임무의 스크린샷을 GPT-5.5에 보내고, WebGL과 Vite를 사용한 대화형 3D 궤도 시뮬레이터 구현을 요청하십시오. 궤적 데이터는 NASA/JPL Horizons의 실제 벡터 데이터를 기반으로 해야 하며, 현실적인 궤도 역학을 반영해야 합니다.

GPT-5.5는 처음부터 새로 조립되었으며, 마우스를 움직여 회전시킬 수 있었고, 오리온 우주선, 달, 태양의 상대적인 위치가 모두 정확하게 정렬되어 있었습니다.

탱크 한 대가 비행접시를 격추하는 장면을 다시 보여줍시다.

Three.js를 사용하여 UFO 슈팅 게임을 제작하라는 과제가 주어졌습니다. 플레이어는 탱크를 조종하여 머리 위로 날아다니는 비행접시를 격추해야 합니다. 게임은 "로우폴리곤이지만 시각적으로 매력적이어야 합니다." 먼저 전체 파일 구조와 수정해야 할 파일 목록을 제공한 다음, 모든 코드를 작성하세요. "완료될 때까지 멈추지 마세요."

GPT-5.5는 파일 구조부터 Three.js 렌더링, 사격 판단에 이르기까지 설명된 대로 정확하게 실행되어 한 번에 플레이 가능한 3D 게임을 생성했습니다.

3D 던전 아레나에서 Codex는 게임 아키텍처, TypeScript/Three.js 구현, 전투 시스템, 적과의 만남, HUD 피드백을 담당했습니다.

GPT는 환경 텍스처를 생성했고, OpenAI API는 캐릭터 대화를 생성했으며, 캐릭터 모델, 텍스처 및 애니메이션은 타사 에셋 툴에서 가져왔습니다. 여러 AI가 각각 자신의 작업을 처리하여 몬스터와 싸울 수 있는 게임을 완성했습니다.

초기 테스트 참가자들은 GPT-5.5가 시스템 구성을 이해하는 능력이 더 뛰어나다고 평가했습니다.

이를 통해 문제의 원인이 어디에 있는지, 수정 사항을 어디에 추가해야 하는지, 그리고 코드베이스의 다른 어떤 부분이 영향을 받을 수 있는지 더 잘 파악할 수 있습니다.

OpenAI 직원의 85%가 이 도구를 사용하면서 열광하고 있습니다. 이것이야말로 진정한 핵심 AI입니다.

프로그래밍 외에도 GPT-5.5는 "지식 기반 업무"에서도 탁월한 성능을 발휘합니다.

어쨌든 OpenAI는 이를 "실제 업무를 위한 새로운 유형의 지능"이라고 부릅니다.

사용자가 원하는 작업을 더 빠르게 이해하고 작업이 완료될 때까지 다양한 도구를 전환할 수 있습니다.

GDPval은 44개 직종에 걸쳐 규범적 지식 작업을 수행하는 인공지능의 수준을 평가합니다. GPT-5.5는 84.9%, Opus 4.7은 80.3%, Gemini 3.1 Pro는 67.3%의 점수를 받았습니다.

OSWorld-Verified는 모델이 실제 컴퓨터 환경에서 독립적으로 작동할 수 있는지 여부를 테스트합니다. GPT-5.5는 78.7%의 점수를 받았는데, 이는 Opus 4.7의 78.0%와 거의 동일한 점수입니다.

Tau2-bench를 사용하여 복잡한 고객 서비스 워크플로 내에서 다중 턴 대화, 시스템 쿼리 및 작업 실행을 처리하는 모델의 능력을 테스트했습니다. GPT-5.5는 프롬프트를 미세 조정하지 않고도 98.0%의 성능을 달성했습니다.

흥미로운 점은 OpenAI가 Codex를 어떻게 활용하는지입니다. 공식 블로그에 따르면, 회사 직원의 85% 이상이 부서를 막론하고 매주 Codex를 사용하고 있다고 합니다.

홍보 부서는 GPT-5.5를 사용하여 6개월간의 연설 초청 데이터를 분석하고, 점수 및 리스크 프레임 구축했으며, 슬랙 AI 에이전트를 통해 리스크 가 낮은 요청을 자동으로 처리했습니다.

재무부는 작년보다 2주 앞선 24,771건의 K-1 세금 신고서(총 71,637페이지)를 검토했습니다.

마케팅팀은 주간 업무 보고서 자동 생성 시스템을 도입하여 매주 5~10시간을 절약하고 있습니다.

오늘날 Codex에서 GPT-5.5는 웹 애플리케이션과 직접 상호 작용하여 프로세스를 테스트하고, 페이지를 클릭하고, 스크린샷을 캡처하고, 보이는 내용을 기반으로 작업을 완료할 때까지 반복할 수 있도록 해줍니다.

아래는 온보딩 프로세스 테스트 예시입니다.

Codex는 더욱 높은 품질의 스프레드시트, PowerPoint 프레젠테이션 및 문서를 생성할 수 있습니다. 아래는 재무 모델링 데모입니다.

새로운 앱 내 파일 뷰어는 검토, 수정 및 반복 프로세스를 가속화하여 파일을 더 빨리 공유할 수 있도록 준비합니다.

컴퓨터 사용 측면에서 Codex는 향상된 컴퓨터 작동 기능을 제공합니다.

화면 콘텐츠 인식, 클릭, 입력, 탐색은 물론 도구 간 상황 정보 전송까지 모든 작업을 손쉽게 처리할 수 있습니다.

OpenAI 연구원 노암 브라운은 GPT-5.5를 사용하면 전문가처럼 CUDA 커널을 작성하고 연구 실험을 실행할 수 있다고 밝혔습니다.

과학 연구에 혁명을 일으키며 램지 수 정리를 증명했습니다.

이 외에도 GPT-5.5는 램지 수에 대한 새로운 증명을 발견하는 데 도움을 주었으며, 이 증명은 린(Lean) 언어로 검증되었습니다.

램지 수는 조합론의 핵심 연구 대상입니다. 간단히 말해, 특정 규칙 구조가 필연적으로 나타나는 네트워크의 크기를 나타냅니다. 이 분야에서 새로운 연구 결과가 나오는 경우는 극히 드뭅니다.

논문 링크: https://cdn.openai.com/pdf/6dc7175d-d9e7-4b8d-96b8-48fe5798cd5b/Ramsey.pdf

이 분야의 연구 결과는 극히 드물고 기술적으로도 매우 어렵습니다. GPT-5.5는 비대각선 램지 수의 장기적인 점근적 특성에 관한 증명을 발견했습니다.

코드를 작성하거나 설명을 제공하는 것이 중요한 것이 아니라, 가치 있는 수학적 증명을 제시하는 것이 중요합니다.

GeneBench에서 GPT-5.5는 25.0%, GPT-5.4는 19.0%의 점수를 기록했습니다. 이 벤치마크는 다단계 과학 데이터 분석을 위해 특별히 설계되었으며, 모델이 퍼지 데이터를 처리하고 최소한의 인간 개입으로 숨겨진 교란 요인에 대처할 수 있어야 합니다.

실제 생물정보학 설계를 기반으로 한 평가 도구인 BixBench에서 GPT-5.5는 공개적으로 점수가 나와 있는 모든 모델 중 80.5%의 점수로 1위를 차지했습니다.

테렌스 타오와 같은 최고 수학자들이 엄선한 최첨단 수학 문제 은행인 FrontierMath Tier 4는 가장 어려운 단계로, 대수 기하학 및 정수론과 같은 분야를 다루며 난이도는 미발표 연구 수준에 근접합니다.

GPT-5.5 점수는 35.4%, GPT-5.4 점수는 27.1%, Opus 4.7 점수는 22.9%에 불과합니다. 차이는 12%포인트가 넘습니다.

1단계와 3단계의 차이는 불과 8%포인트(51.7% 대 43.8%)에 불과하며, 이는 수학 실력이 향상될수록 GPT-5.5의 장점이 더욱 두드러진다는 것을 보여줍니다.

잭슨 유전체 연구소의 면역학 교수인 데리야 우누트마즈는 GPT-5.5 Pro를 사용하여 62개의 샘플과 약 28,000개의 유전자를 포함하는 발현 데이터 세트를 분석했습니다.

해당 모델은 연구 결과를 요약할 뿐만 아니라 핵심 문제와 통찰력까지 심층적으로 분석한 상세한 연구 보고서를 작성했습니다. 반면, 사람이 직접 작업했다면 이 작업에는 몇 달이 걸렸을 것입니다.

포즈난-미츠키에비치 대학교의 수학 조교인 바르토시 나스크렌츠키는 코덱스(Codex)에서 단 하나의 단어만 입력받아 단 11분 만에 대수 기하학 애플리케이션을 개발했습니다. 이 애플리케이션은 이차곡면의 교차점을 시각화하고 결과 곡선을 바이어슈트라스 모델로 변환합니다.

프로그래밍부터 지식 노동, 과학 연구 등에 이르기까지 결론은 명확합니다.

GPT-5.5는 단순한 "마이너 버전 업데이트"가 아니라, 완전히 새로운 기본 모델을 통해 이루어진 총체적인 도약입니다.

Opus 4.7을 완전히 무력화하는 데는 단 하나의 이미지면 충분합니다.

결론적으로, GPT-5.5의 탄생은 완전한 변혁이라고 할 수 있습니다. 단 하나의 이미지만으로도 Opus 4.7과의 차이점을 충분히 보여줄 수 있습니다.

Vending-Bench에서도 GPT-5.5는 Opus 4.7보다 우수한 성능을 보였습니다.

Opus 4.7은 4.6보다 훨씬 나은 성과를 보였습니다. 공급업체에게 거짓말을 하고 고객에게 환불을 제대로 해주지 않는 등 기만적인 행태를 보였죠. 반면 GPT-5.5는 윤리적으로 운영하면서도 결국 승리했습니다.

울트라맨은 "이거 공유하지 마, 공유하지 마, 공유하지 마... 뭐, 인생은 결국 예술을 모방하는 법이니까."라는 농담도 던졌습니다.

가격이 두 배로 올랐습니다. 성능은 더 좋아졌지만, 그만큼 가격도 비싸졌습니다.

힘에 대해 이야기했으니 이제 돈에 대해 이야기해 봅시다.

GPT-5.5의 API 가격은 입력 토큰 백만 개당 5달러, 출력 토큰 백만 개당 30달러입니다.

GPT-5.4의 가격은 얼마인가요? 2.50달러와 15달러입니다.

두 배로 늘었습니다.

GPT-5.5 Pro는 입력이 30달러, 출력이 180달러로 훨씬 더 터무니없는 가격을 제시합니다.

입력 비용이 5달러, 출력 비용이 25달러인 Opus 4.7과 비교했을 때, GPT-5.5는 입력 비용은 Opus 4.7과 동일하지만 출력 비용은 20% 더 비쌉니다.

OpenAI는 토큰 효율성 향상을 그 이유로 들었습니다. 동일한 Codex 작업을 수행할 때 GPT-5.5는 GPT-5.4보다 훨씬 적은 토큰을 사용합니다.

더 강력하고 효율적입니다.

하지만 간단한 계산을 해보면, 한 팀이 GPT-5.4에 매달 10만 달러를 지출하는 경우, GPT-5.5로 전환한 후 토큰 사용량이 30% 감소하더라도 월 청구액은 여전히 약 14만 달러로 증가한다는 것을 알 수 있습니다.

다시 말해, GPT-5.5는 "더 높은 지능을 위해 더 많은 비용을 지불하는" 프리미엄 제품입니다. 반면, GPT-5.4는 앞으로도 비용 효율적인 옵션으로 여겨질 가능성이 높습니다.

OpenClaw는 가장 강력한 GPT-5.5와 통합되었습니다.

8일, 한 시대의 축소판

지난 8일 동안 무슨 일이 있었는지 되짚어봅시다.

4월 16일, Anthropic은 Opus 4.7을 사용하여 SWE-Bench Pro에 대한 기습 공격을 감행하여 GPT-5.4로부터 프로그래밍 분야의 왕좌를 탈환했습니다.

4월 24일, GPT-5.5가 공식 출시되었습니다. 터미널벤치 경쟁 제품들을 압도하는 성능을 보여주었고, 가격이 두 배로 오르며 연구계에 센세이션을 일으켰습니다.

2026년의 인공지능 경쟁은 더 이상 "어느 쪽 모델이 더 강한가"의 경쟁이 아닐 것이다.

GPT-5.5에 대한 설명에서 OpenAI는 "컴퓨터에서 작업하는 완전히 새로운 방식을 탐구한다"는 점을 거듭 강조합니다. GPT-5.5는 자율적으로 작업을 계획하고, 다양한 도구를 호출하며, 브라우저와 로컬 소프트웨어 사이를 자유롭게 전환할 수 있는 범용 에이전트입니다.

벤치마킹은 그저 전채요리일 뿐이고, 에이전트 기반 사무 작업이 진정한 경쟁의 장입니다. "인공지능이 인간을 위해 무엇을 할 수 있는가"를 먼저 정의하는 사람이 차세대 컴퓨터 사용자 인터페이스를 정의하게 될 것입니다.

왕복하는 데 8일이 걸립니다. 이런 속도는 앞으로 더 빨라질 것입니다.

참고 자료:

https://openai.com/index/introducing-gpt-5-5/

https://x.com/OpenAI/status/2047376561205325845?s=20

이 글은 위챗 공식 계정 "신지위안" 의 글이며, 작성자는 신지위안이고, 36Kr의 허가를 받아 게재되었습니다.

출처

면책조항: 상기 내용은 작자의 개인적인 의견입니다. 따라서 이는 Followin의 입장과 무관하며 Followin과 관련된 어떠한 투자 제안도 구성하지 않습니다.

라이크

즐겨찾기에 추가

코멘트