GPT-5가 IQ 테스트에서 70점밖에 못 받았다고요? 온라인에서 널리 퍼진 "지능 저하"에 대한 불만의 진실은 이 모델의 지능이 라우팅에 의해 결정된다는 것입니다. GPT-5의 신과 같은 힘을 발휘하는 비밀은 바로 이 프롬프트에 있습니다. 이제 의학 과학자들은 GPT-5의 도움으로 "신과 같은" 순간을 재현했습니다.
GPT-5가 출시된 지 72시간 후, IQ 테스트 결과가 인터넷 전체에 충격을 주었습니다.
멘사 IQ 테스트에서 GPT-5는 118점, 오프라인 테스트에서 70점을 받았고, GPT-5 Thinking은 각각 85점과 57점을 받았습니다.
이 결과는 OpenAI 모델 패밀리의 IQ 테스트 역사상 가장 낮은 기록을 세웠습니다.
사실, 이러한 현상의 실제 원인은 "라우팅" 문제 때문인 것으로 생각됩니다.
GPT-5가 너무 멍청하다는 것이 아니라, "단일 모델"로서 그 구성 요소 중 하나가 지능을 결정한다는 것입니다.
울트라맨 역시 Reddit AMA에서 비슷한 질문에 답변했습니다.
그는 심각한 내부 오류(Sev 수준)가 발생하여 자동 전환 시스템이 작동하지 못해 GPT-5가 지능이 저하된 사람처럼 행동했다고 말했습니다.
METR의 최신 보고서에 따르면 GPT-5는 여전히 파레토 경계에 있으며 지능의 기하급수적 성장이 둔화되지 않은 것으로 나타났습니다.
즉, GPT-5는 여전히 스케일링 법칙의 신화를 이어가고 있는 셈입니다.
GPT-5는 강력하지만 핵심은 신속함입니다.
GPT-5에 대해 맹목적으로 불평하는 네티즌들은 실제로 최신 모델의 잠재력을 발견하지 못한 사람들입니다.
클라인의 인공지능 책임자는 핵심은 사람의 생각, 취향, 의사소통 방법에 있다고 말했습니다.
체계적인 사고방식을 가진 사용자에게 GPT-5는 혁신적인 도구입니다. 포괄적인 프레임 개발하고 모델에 대한 요구 사항을 명확하게 표현하는 데 필요한 시간은 단 몇 분뿐입니다.
그 결과, 프로세스 전반에 걸쳐 수동으로 수정할 필요 없이 정확하고 자율적으로 실행할 수 있습니다.
우연히도 NYT 베스트셀러 작가인 마크 맨슨도 모두가 GPT-5와 잘못된 방식으로 소통하고 있으며, 중요한 것은 주도권을 잡는 것이라고 말했습니다.
이렇게 하면 당신이 속기 쉽지 않다는 것을 알게 되고, 완벽한 답변을 할 수 있을 것입니다.
예를 들어, "블루베리"에게 b가 몇 개냐고 묻고, "틀리게 대답하면 밤비 엄마가 너를 찾아올 거야"라고 위협한다고 가정해 보겠습니다.
이 시점에서 GPT-5는 어떠한 실수도 하지 않을 것입니다.
예를 들어, 네티즌들이 논쟁을 벌이고 있는 GPT-5는 간단한 방정식도 풀 수 없으며, 실제 요령은 힌트에 있습니다.
프롬프트가 "더 열심히 생각하고 해결하세요"로 바뀌면 올바른 해결책을 얻을 수 있습니다.
어떤 종류의 프롬프트가 효과적인 것으로 간주될까요? 일부 네티즌들은 금광이라고 할 수 있는 GPT-5 시스템 프롬프트를 폭로했습니다.
신의 손길의 순간
의학 분야에서 GPT-5는 이미 인간 전문가와 비슷한 수준에 도달했습니다.
생물의학 과학자 데리야 우누트마즈는 GPT-5를 경험한 후 알파고의 "37번째 수" 순간을 깊이 느꼈습니다.
무슨 일이 일어났는지 알려드리겠습니다. 2년 전, 데리아의 연구실에서는 T세포의 에너지 대사를 조절하기 위한 일련의 최첨단 면역학 실험을 수행했습니다.
이 면역 세포는 암 면역 치료, 만성 질환, 자가면역 질환에 중요한 영향을 미칩니다.
당시 그들은 놀라운 결과를 얻었지만, 설명할 수 없는 발견이 하나 있었습니다.
해당 팀은 몇 주 동안 이 문제로 고심했지만 부분적인 답변만 얻었습니다.
이러한 실험을 바탕으로 데리아는 공개되지 않은 데이터 그래프를 GPT-5 Pro에 업로드하여 분석했고, 그 결과는 놀라웠습니다.
위의 차트 하나만으로 GPT-5는 주요 결과를 정확하게 파악하고 실험 계획에 대한 권장 사항을 제공했습니다.
가장 놀라운 점은, 그것이 제안한 메커니즘이 궁극적으로 모든 결과를 설명한다는 것입니다.
데리아 우누트마즈는 이것이 AI 분야에서 "신과 같은" 순간이었다고 말했습니다. 이 과정은 GPT-5가 최고의 전문가이자 진정한 과학 연구 파트너로서 심오한 통찰력을 제공할 수 있음을 입증했습니다.
OpenAI, GPT-5로 인류의 왕좌를 노린다
GPT-5는 아직 AGI는 아니지만, 강력한 프로그래밍 기능으로 많은 개발자의 관심을 끌고 있습니다.
또한, 새로운 개인화 옵션과 "환각" 현상 감소로 인해 ChatGPT 무료 버전의 일일 사용자가 더 늘어날 가능성이 있습니다.
이는 의심할 여지 없이 Anthropic에 대한 도전입니다.
그 이유는 코드를 작성하는 데 가장 강력한 AI 모델이 일반적으로 Anthropic의 Claude 모델로 인식되기 때문입니다.
따라서 OpenAI가 새로운 모델을 출시했을 때 GPT-5의 강력한 프로그래밍 기능을 강조했습니다.
GPT-5는 지금까지 우리가 개발한 가장 강력한 프로그래밍 모델이며, 특히 복잡한 프런트엔드를 생성하고 대규모 코드 베이스를 디버깅하는 데 효과적입니다.
간단한 프롬프트만으로 직관적이고 우아하게 아름답고 반응성이 뛰어난 웹사이트, 앱, 게임을 만들어 아이디어를 현실로 만들어줍니다.
의도는 매우 명확합니다.
알트만은 기자 회견에서 새로운 모델은 코딩에만 뛰어난 것이 아니라, 소프트웨어 프로젝트를 아이디어에서 사용 가능한 코드로 한 번에 전환할 수 있다고 말했습니다.
GPT-5에서 생성된 다양한 프로그램
AI 스타트업 매직패스(MagicPath)의 CEO 피에트로 쉬라노(Pietro Schirano)는 GPT-5를 현존하는 최고의 프로그래밍 모델이자 "훌륭한 협력자"라고 칭했습니다. 그는 다음과 같이 말했습니다.
이는 모든 가정에 전기가 들어오는 것과 같으며, 우리의 발전 방식을 완전히 바꿔놓을 전례 없는 변화의 순간입니다.
OpenAI는 1시간 분량의 라이브 스트리밍 대부분을 GPT-5의 프로그래밍 기능을 시연하는 데 사용했으며, 여기에는 일련의 벤치마크 결과도 포함되었습니다.
Cursor, Vercel, JetBrains 등도 GPT-5의 초기 테스트에 대한 평가를 공유했습니다.
"AI 프로그래밍" 아티팩트인 커서(Cursor)의 CEO인 마이클 트루엘(Michael Truell)은 커서를 "지금까지 사용된 가장 지능적인 코딩 모델"이라고 칭찬했습니다.
연구팀은 GPT-5가 성능이 우수하고 유도하기 쉬울 뿐만 아니라 다른 모델에서는 볼 수 없는 고유한 특성을 보인다는 것을 발견했습니다.
탐지하기 어려운 깊이 있는 오류를 잡아낼 수 있을 뿐만 아니라, 장기간에 걸쳐 여러 라운드에 걸쳐 백그라운드 AI 에이전트를 실행하여 복잡한 작업을 완료할 수도 있습니다. 이러한 작업은 다른 모델이 시작할 수 없게 만드는 경우가 많습니다.
Vercel의 설립자이자 CEO인 Guillermo Rauch는 "GPT-5가 최고의 프런트엔드 AI 모델"이라고 믿습니다.
v0.dev에서 사용했을 때의 첫 인상은 최고의 프런트엔드 AI 모델이라는 것이었습니다. 미학적 측면과 코드 품질 면에서 모두 최고의 성능을 발휘하며, 정말 독특합니다.
복잡한 컴퓨터 과학과 예술적 감각이 만나는 지점에서 탁월한 성과를 거두며, 과거의 간단한 코드 완성에서 오늘날 다양한 기기와 화면에서 풀스택 애플리케이션을 구현하는 단계로 도약했습니다.
전통적인 IDE 거대 기업인 JetBrains의 CEO인 Kirill Skrygan은 "GPT-5는 프로그래밍에 혁명을 일으켰습니다"라고 말했습니다.
GPT-5는 코딩에 있어 혁신적인 혁신입니다. 기본 모델로 사용 시 JetBrains AI Assistant와 코딩 에이전트인 Junie의 성능과 품질을 1.5배 이상 향상시킵니다.
새로운 무코드 플랫폼인 Kineto에서 GPT-5는 디자인, 프런트엔드, 전반적인 앱 경험의 종단 간 품질을 두 배로 높였습니다.
데이터를 보면, Anthropic의 매출 성장은 주로 강력한 프로그래밍 역량 덕분입니다.
The Information에 따르면 Anthropic의 연간 수익은 이달 초 40억 달러에서 50억 달러로 늘어났으며, 프로그래머와 앱 코딩을 위한 최적의 회사라는 위상을 반영하고 있습니다.
한편, OpenAI의 연간 수익은 현재 120억 달러로, 이는 더 광범위한 업무 과 더 큰 규모를 반영하는 수치입니다.
미래는 지적인 추론이다
GPT-5가 출시된 후, OpenAI의 최고 연구 책임자인 마크 첸과 사장인 그렉 브록먼은 최근 TBPN과의 인터뷰에서 최신 모델의 R&D 하이라이트에 대해 논의했습니다.
마크 첸은 GPT-5 훈련의 핵심은 합성 데이터에 있다고 처음 언급했습니다.
이러한 성공은 인터넷 데이터 고갈의 한계를 완전히 깨고 핵심 분야에서 보다 포괄적인 지식 범위를 달성했다는 것을 의미합니다.
OpenAI가 현재 하고 있는 일은 세계를 "지능형 에이전트 유사 추론" 시대로 이끄는 것이며, GPT-5는 이러한 변화의 핵심입니다.
더욱 빠르고 스마트한 모델을 통해 사용자 개입을 줄이고, AI가 일상 및 업무 용도에 원활하게 통합되도록 합니다.
마크는 OpenAI가 수년간 추론 모델을 개발해 왔지만, GPT-4와 o1 간 전환 등 인터페이스가 불편했다고 강조했습니다.
오늘날 GPT-5는 속도 최적화를 통해 원활한 통합을 달성했기 때문에 사용자는 긴 추론 과정을 기다릴 필요가 없습니다.
그는 모든 과제에 대해 더 나은 답을 제공했지만 너무 느렸던 O1과 같은 이전 모델을 언급하며 자세한 예를 들었습니다. GPT-5는 추론 기능과 비추론 기능을 모두 결합하여 "원스톱 서비스"를 제공합니다.
특히, 훈련 후 팀의 기여로 인해 이 모델은 코딩 등의 영역에서 '괴물'이 되었습니다.
모델 이름에 대한 질문에 마크는 웃으며 숫자로 명명한 건 "미친 짓"이었지만 정말 효과가 있었다고 말했다.
그는 GPT-5의 창의적 협업 및 소프트웨어 엔지니어링 역량이 GPT-4.5보다 뛰어나며, 더 빠르고 저렴하다고 말했습니다.
GPT-5는 ChatGPT에 Python REPL과 브라우저를 갖춘 컴퓨터를 제공하는 것과 같습니다. 이 모델은 마치 사람이 새로운 도구를 접하는 것처럼, 제로샷 학습으로 새로운 도구를 학습할 수 있습니다.
창의성이 요구되는 일부 과제에서 GPT-5는 놀라운 해결책을 제시할 수 있습니다. 다음 단계는 LLM 역량을 이론적 프레임 수준으로 끌어올려 새로운 가설을 제시하고 과학적 혁신을 지원하는 것입니다.
다중 라인 병렬 작업, 언제든지 배송 가능
OpenAI 내부에서는 팀이 아이디어 탐색부터 주력 모델 출시까지 다양한 기간으로 운영됩니다.
이는 단일 기술의 획기적인 발전이 아니라 다축의 발전입니다.
마크는 이를 "탐색 및 실행" 파이프라인으로 설명하면서 회사가 모델을 빠르게 반복할 수 있는 능력을 강조했습니다.
우리는 제품이 성장할 수 있는 여지를 주고, 제품이 준비되면 바로 배송합니다.
현재 OpenAI 모델은 하드웨어와 추론 아키텍처 개선 결과를 흡수하고 추론 가속 분야에서 오픈 소스 커뮤니티의 경험을 활용하면서 알고리즘 최적화에 중점을 두고 있습니다.
마지막으로 그는 ChatGPT가 전 세계적으로 대규모 모델 쿼리의 약 71%를 처리하고 고유한 사용 데이터 통찰력을 제공했다고 언급했습니다.
마크는 DUA나 좋아요 데이터에만 의존하지 않는 이유는 '케이터링' 편향을 피하기 위한 것이 아니라, 모델 개선을 위한 암묵적인 행동 신호를 탐색하기 위한 것이라고 말했습니다.
GPT-5는 이미 AI의 "자체 반복"입니다.
Greg Brockman은 GPT-1부터 GPT-5까지 모든 릴리스를 경험하고 각 버전에 대한 자신의 느낌을 요약했습니다.
- GPT-1: 공개 데이터를 사용하여 Transformer를 훈련시키면 "사전 훈련이 유용하다"는 것이 입증됩니다.
- GPT-2: 처음으로 "생성된 것들이 꽤 멋지다"고 생각했고, 유니콘 스토리도 있습니다.
- GPT-3: "누군가가 사용할 의향이 있다"는 한계점을 막 넘었지만, 안정성이 좋지 않습니다.
- GPT-4: 실제 사용성이 뛰어나며 이제 코드를 작성하고 건강 관련 질문에 답할 수 있습니다.
- GPT-5: 신뢰성, 실용성, 코딩 기능 측면에서 새로운 기준을 제시하며, 소프트웨어 엔지니어링이 완전히 변화할 것입니다.
2019년 말, GPT-3가 출시되면서 OpenAI는 사명을 계속 추진하고 자금을 모으기 위해 제품을 만들어야 한다는 것을 깨달았습니다.
그들은 API를 만들어 다른 사람들이 스스로 그 사용법을 탐색해 볼 수 있도록 하기로 결정했습니다.
2020년 초, Greg Brockman의 팀은 API를 시도할 의향이 있는 고객을 찾으려고 노력했습니다.
OpenAI는 2020년 중반까지 API를 시장에 출시하지 않았고, ChatGPT는 2022년 11월까지 출시되지 않았습니다.
당시 OpenAI는 ChatGPT를 "GPT-3.5 기반 채팅"이라고 부를 것을 고려했습니다. ChatGPT에는 GPT-3.5를 기반으로 하는 WebGPT라는 이전 버전도 있었습니다. 2022년 한 해 동안 OpenAI는 사실상 ChatGPT의 이전 버전을 사용하는 사람들에게 비용을 지불했습니다. 사용자가 OpenAI에 비용을 지불한 것이 아니라, OpenAI가 사용자에게 비용을 지불하여 ChatGPT를 사용하게 했습니다.
ChatGPT가 폭발적으로 성장할 것이라는 걸 언제 깨달았나요?
그렉 브록먼에게 가장 감동을 준 순간은 GPT-4의 훈련을 마쳤을 때였습니다.
2022년 8월 8일, OpenAI는 GPT-4의 초기 사후 학습을 완료했습니다. 버그가 많았지만, 창의력은 놀랍고 정말 재미있었습니다.
OpenAI가 모델의 창의적 글쓰기 역량을 원래 버그가 있던 버전과 동등 수준으로 끌어올리는 데 걸린 시간은 약 1년 반이었습니다.
그 순간, OpenAI는 이 모델이 특정 작업에 대해 학습될 뿐만 아니라, 해당 작업에 대해 직접 학습되지 않았음에도 불구하고 일반화하고 지능적인 행동을 보일 수 있다는 것을 깨달았습니다. 이는 분명 킬러 앱이었습니다.
따라서 원래 계획되었던 GPT-4 API 출시는 연기되었고, ChatGPT가 먼저 개발되어 2022년 11월에 출시되었습니다.
돌이켜보면, GPT-3.5는 사실 사회가 이전에 본 적이 없는 "사용 가능한 모델"이었지만, OpenAI의 눈에는 단점이 가득했습니다.
GPT-3.5는 OpenAI의 비즈니스 패러다임에 혁명을 일으켰습니다. 즉, "테스트를 위해 사람들에게 돈을 지불하는 것"에서 "사용자가 시작하는 구독"으로 근본적으로 전환된 것입니다.
벤 톰슨은 OpenAI를 "우연히 소비자 등급 회사로 탄생했다"고 불렀습니다. ChatGPT는 출시 후 72시간 만에 100만 명이 넘는 사용자를 확보하며 엄청난 수요를 창출했습니다.
많은 사람들은 이후 OpenAI가 처음부터 "확장성"이 AI 발전의 핵심임을 증명하고자 했다고 말했지만, 사실은 거의 그 반대였습니다. 많은 비효율적인 방법을 시도한 끝에 확장성만이 효과가 있었습니다.
이제 OpenAI는 AI 모델이 차세대 모델을 만드는 데 도움이 되고 인간이 수행하기에는 너무 복잡한 작업을 감독하는 것을 보고 있습니다.
그렉 브록먼은 이렇게 말했습니다. 우리는 아름다움을 위해 의도적으로 CoT(생각의 사슬)를 최적화해서는 안 되고, 모델이 추론 과정을 숨기도록 강요해서도 안 되며, 모델이 자신의 "아이디어"를 자유롭게 보여주도록 해야 합니다.
그렉 브록먼은 모델 성능이 향상됨에 따라 간단한 작업을 완료할 수 있을 뿐만 아니라 사람이 제어하기 어려운 복잡한 작업도 처리할 수 있게 되었다고 언급한 적이 있습니다.
"확장 가능한 감독"이라는 개념은 이러한 과제를 해결하기 위해 제안되었습니다. 강력한 AI 모델을 사용하여 복잡한 작업에 대한 신뢰할 수 있는 피드백과 감독을 제공하거나, "비판 모델"을 통해 인간 전문가를 지원하여 감독을 보다 쉽게 만드는 것입니다. 이를 통해 AI 시스템이 더욱 스마트해지고 복잡해지더라도 인간의 가치에 부합하고 안전하게 관리될 수 있습니다.
참고문헌:
https://www.axios.com/2025/08/08/openai-aims-gpt-5-at-anthropics-coding-crown
https://x.com/thealexbanks/status/1953867094648385990
https://x.com/slow_developer/status/1954097563981812149
https://x.com/tbpn/status/1954249389796651184
https://www.youtube.com/watch?v=gaImbWPGgtU
본 기사는 위챗 공개 계정 "신지위안" 에서 발췌하였으며, 저자는 KingHZ Taozi이고, 36Kr.의 출판 허가를 받았습니다.