GPT-5.2 실패의 내막이 밝혀졌다: 기술팀의 잘못이 아니라 사용자들이 가장 큰 피해자였다.

12-19

이 기사는 기계로 번역되었습니다

원문 표시

OpenAI의 10주년 기념 행사는 그다지 품위 있게 진행되지 않았습니다.

그날 출시된 GPT-5.2는 완벽한 성능을 보여주었습니다. 최첨단 벤치마크 테스트에서 모두 우수한 결과를 얻었으며, 수학 및 프로그래밍과 같은 경쟁 시나리오에서도 뛰어난 성능을 발휘했습니다. 또한 공식적으로 인공지능 "슈퍼 브레인"으로 불리게 되었습니다.

하지만 소셜 네트워크에서는 박수갈채가 아닌 사용자들의 쏟아지는 비난에 직면했습니다.

X와 레딧에서는 거의 모든 댓글에 분노와 실망감이 가득했습니다. 사람들은 한때 "하얀 달빛"으로 빛나던 GPT-4o를 다시금 그리워했습니다. 어떤 이들은 GPT-5.2가 밋밋하고 지루해졌으며, 마치 모서리가 뭉툭해진 것 같다고 말했고, 또 어떤 이들은 "어른들을 유치원생처럼 대하는" 설교조의 메시지라고 비웃었습니다.

여론이 오픈AI와 CEO 샘 알트먼에게 등을 돌리면서, 다음과 같은 날카로운 질문이 제기되었다. "더 똑똑해진" 모델들을 사용자들이 왜 덜 선호하는 것일까?

"더 똑똑한" 모델이 더 이상 인기를 얻지 못하는 이유는 무엇일까요?

오늘 아침 일찍 공개된 The Information의 최신 보도에 따르면 내막이 밝혀졌습니다.

지난 한 해 동안 OpenAI는 황금률을 고수해 왔습니다. 모델의 세대적 도약이 있을 때마다 사용자 수가 폭발적으로 증가했는데, 이는 "더 똑똑해짐"으로 인한 사용자 경험 개선이 즉각적으로 드러났기 때문입니다. 하지만 이제 이 황금률이 무너졌습니다.

물론, 지능형 및 과학적 계산 분야에서 모델의 개선점은 여전히 상당합니다. 연구팀은 수개월에 걸쳐 모델의 추론 능력을 다듬어 더욱 복잡한 수학적, 과학적 문제를 해결할 수 있도록 했지만, 대부분의 일반 사용자에게는 이러한 개선점이 미미할 것입니다.

https://www.theinformation.com/articles/openais-organizational-problems-hurt-chatgpt?rc=qmzset

즉, 지능의 향상이 반드시 사용자 경험의 향상으로 이어지는 것은 아닙니다.

일반 사용자는 "경쟁 수준의 두뇌"를 거의 필요로 하지 않습니다. 그들에게 필요한 것은 "일상적인 작업을 위한 유용한 도우미"입니다. OpenAI가 150만 건의 대화를 분석한 대규모 연구 결과는 이러한 판단을 뒷받침하며, 사용자의 핵심 요구 사항이 매우 실용적이라는 것을 보여줍니다. 실질적인 안내(29%), 정보 검색(24%), 글쓰기(24%)가 주요 요구 사항이며, 프로그래밍 관련 대화는 단 4.2%에 불과합니다.

이러한 모순은 매우 구체적으로 드러납니다. 기술팀이 연구실에서 수학, 물리, 화학, 벤치마크 테스트에 정신없이 매달리는 동안, 사용자들은 채팅창에서 단 한 문장으로 문제를 해결하고 싶어합니다. 빙빙 돌려 말하거나, 장황하게 설명하거나, 질질 끄는 것을 원하지 않는 것입니다.

전선이 지나치게 길어지는 것은 큰 단점이다.

올해 대부분의 기간 동안 울트라맨은 영상 제작 애플리케이션인 소라, 음악 AI, 브라우저, AI 에이전트, 하드웨어 기기, 로봇 등 여러 신규 프로젝트를 동시에 출시했습니다. 사업 범위가 확장되고 있는 반면, 자원은 분산되고 있습니다.

사실 이는 기술 대기업들이 흔히 저지르는 전형적인 실수입니다. 핵심 시장을 확보하기 전에 서둘러 두 번째, 세 번째 전선을 구축하려는 것이죠. 단기적으로는 "홍보 효과"처럼 보일 수 있지만, 장기적으로는 감당할 수 없는 일을 벌이는 것과 같습니다. 전쟁에서 가장 치명적인 실수죠. 각 전선은 인력, 해시레이트, 그리고 제품을 개선할 인내심이 부족하기 때문입니다.

오픈아이(OpenAI) 내부의 "연구 우선순위"와 "제품 성장" 사이의 갈등은 이미지 생성 분야에서 특히 두드러지게 나타납니다.

GPT-4o의 지브리 스타일 그래픽이 3월에 ChatGPT의 사용량과 사용자 증가를 일시적으로 끌어올리긴 했지만, OpenAI는 초기에는 이미지 모델 개발을 우선시했습니다. 나노 바나나가 입소문을 타면서 OpenAI는 프로젝트를 서둘러 재검토했고, 이로 인해 내부 의견 충돌이 발생했습니다.

알트만은 이미지 모델이 사용자 증가의 핵심이라고 믿는 반면, 연구 책임자인 마크 첸은 다른 프로젝트에 자원을 투자하는 것을 선호합니다.

또한, 확장 법칙의 한계 효용이 감소함에 따라 대규모 모델의 병목 현상을 해결하기 위해 OpenAI는 지난 1년간 추론 모델에 집중 투자해 왔으며, 1,000명이 넘는 연구팀이 이 분야에 자원을 투입했습니다. 그 결과 ChatGPT의 일상적인 경험 최적화는 뒷전으로 밀려났습니다.

이러한 접근 방식은 자원을 분산시켰을 뿐만 아니라 초기 베타 테스트 기간 동안 성능 저하를 초래했습니다. "채팅" 시나리오에 적응하려는 시도가 오히려 추론 모델의 순수성을 약화시킨 것입니다. 이후 "사고 모드"와 "심층 연구"가 도입되어 트래픽을 분산시키고 상황을 개선하려 했지만, 사용자 채택률이 매우 낮았고, 결과적으로 실제 일상 대화 경험이 더 매력적으로 개선되지는 않았습니다.

또한, 구형 모델과 신형 모델 간에 호환성 문제가 자주 발생합니다.

예를 들어, GPT-5 출시 전 연구원들은 해당 모델이 ChatGPT에 통합된 후 일부 프로그래밍 작업에서 성능이 저하되는 것을 발견했습니다. 이는 시스템이 사용자의 직업과 같은 개인 정보에 따라 답변을 조정했는데, 이로 인해 모델의 이해도가 떨어지고 잘못된 답변이 나왔기 때문입니다.

추론 모델 자체는 점점 더 강력해지고 있는 것은 사실이지만, ChatGPT의 사용자 경험은 점점 더 나빠지고 있습니다.

기술 발전의 방향과 사용자 요구의 방향이 포크 기 시작할 때, 누가 먼저 양보할까요? 답은 명백합니다.

제미니 3 프로의 강력한 출시로 인해 결국 오픈AI는 궁지에 몰렸고, 울트라맨이 "적색 경보"를 발령하며 오픈AI 직원들에게 ChatGPT에 다시 집중하고 제품의 매력을 개선하라고 요구하는 상징적인 장면이 탄생했습니다.

한편, OpenAI의 애플리케이션 책임자인 피지 시모는 자신의 개인 블로그에서 ChatGPT의 비전에 대해 자세히 설명했는데, 이는 주로 텍스트 기반 대화 시스템에서 사용자 의도에 따라 인터페이스를 동적으로 생성할 수 있는 완전한 생성형 UI로 전환하는 것입니다.

시모는 또한 회사가 여전히 근본적으로 연구 중심적이며 "제품 자체가 궁극적인 목표는 아니다"라고 인정했습니다.

피지 시모

비즈니스 관점에서 볼 때, 이 발언은 실제로 상당히 위험합니다.

API 시장에 집중하는 Anthropic과 달리 OpenAI의 주요 수익원은 개인 구독료입니다. 소비자 시장에서는 기업의 "궁극적인 이상"에 돈을 지불할 의향이 있는 사람은 아무도 없습니다. 사용자들은 당장 누릴 수 있는 경험에만 기꺼이 비용을 지불합니다. 이는 마치 레스토랑 셰프가 미슐랭 스타급 요리 개발에만 몰두하는 동안, 로비에 있는 손님들은 그저 따끈한 국수 한 그릇을 원하는 것과 같습니다.

하지만 만약 당신이 이 때문에 OpenAI가 혼란에 빠졌다고 결론짓는다면, 회사의 회복력을 과소평가하는 것일 수 있습니다.

블룸버그에 따르면 마크 첸은 "적색 경보"는 새로운 개념이 아니라 전시 상황에서 사용하는 일상적인 관리 도구라고 설명했습니다. 이 메커니즘은 OpenAI가 단일 목표에 집중해야 하거나 팀이 우선순위가 낮은 작업을 잠시 미뤄두어야 할 때 활성화됩니다.

팟캐스트 링크: https://x.com/Kantrowitz/status/2001790090641645940

울트라맨은 최근 팟캐스트에서 적색경보 발령으로 인한 과도한 불안감 조성을 부인하기도 했습니다.

"우선, 소위 '적색 경보'는 리스크 는 낮지만 절대적으로 필요한 대응 조치라고 생각합니다."라고 알트만은 인정했습니다. "약간 '편집증적'인 태도를 갖고 잠재적인 경쟁 위협이 나타날 때 신속하게 대응하는 것은 좋은 일입니다."

그는 심지어 올해 초 딥시크(DeepSeek)의 부상을 언급하며, 현재의 제미니 3처럼 딥시크도 일종의 긍정적인 외부 자극이라고 생각한다고 말했다.

"지금까지 제미니 3는 우리가 처음 우려했던 만큼 파괴적인 영향을 미치지는 않았습니다. 딥시크와 마찬가지로 제미니 3는 우리 제품 전략의 핵심을 정확히 건드렸지만, 동시에 우리가 매우 빠르게 조정해야 한다는 것을 의미하기도 했습니다."

알트만에 따르면 이러한 비상사태는 보통 6주에서 8주 정도만 지속된다고 합니다. "이처럼 신속 대응 체계가 마련되어 있어서 다행입니다. 이 상태가 오래 지속되지는 않을 겁니다."

OpenAI는 슬로건만으로는 충분하지 않다는 것을 분명히 이해하고 있으며, 오늘 GPT-5.2-Codex를 공식 출시했습니다.

GPT-5.2-Codex는 복잡한 실제 소프트웨어 엔지니어링 문제를 해결하도록 설계된 지능형 에이전트 프로그래밍 모델로서, 일반 지능을 기반으로 GPT-5.1-Codex-Max의 터미널 운영 기능을 통합하여 코드 리팩토링 및 마이그레이션과 같은 장기적인 작업을 처리하는 데 더욱 적합합니다.

또한 팟캐스트 말미에 진행자가 "GPT-6는 언제쯤 나올까요?"라고 묻자, 알트만은 솔직하게 "GPT-6라는 공식 명칭을 언제 붙일지는 모르겠지만, 5.2 버전보다 크게 개선된 새로운 모델이 내년 1분기에 출시될 것으로 예상합니다."라고 답했습니다.

"적색경보" 발령부터 GPT-5.2 시리즈를 통한 반격, 그리고 GPT-6에 대한 모호한 발표에 이르기까지, 오픈AI는 새로운 모델과 새로운 속도로 신뢰를 회복하려 노력하고 있습니다. 그러나 장기적인 결과를 좌우할 것은 여전히 배포 접근성, 생태계 협력, 해시레이트 비용과 같은 난제들입니다.

구글의 공개적인 전략과 울트라맨의 8300억 달러 규모 "빈 도시" 계획.

구글의 강점은 제미니 3 프로 모델에만 국한된 것이 아니라, 거의 비할 데 없는 유통망에 있습니다.

검색, 크롬, 오피스 스위트. 인공지능 분야에서 구글의 경쟁력은 모든 기술 제품 중 가장 취약하다고 할 수 있습니다. 사용자 입장에서 다른 제품으로 갈아타는 데 드는 비용은 거의 제로에 가깝습니다. 구글의 AI 제품이 공기처럼 어디에나 존재하게 되면서, 이는 사실상 공략 불가능한 개방형 전략이 되었습니다 . 사용자는 "설득"될 필요 없이 "망설임 없이 사용하게" 되는 것입니다.

더욱 중요한 것은, 구글과의 경쟁에서 오픈AI의 가장 큰 약점은 하드웨어적인 부족함에 있다는 점입니다.

구글이 12년 전 전용 AI 칩(TPU)을 개발하여 확보한 효율성 우위와 비교해 볼 때, 오픈AI는 여전히 매년 수십억 달러를 해시레이트 임대에 지출하고 있습니다. 자체 데이터 센터와 칩을 구축하여 "따라잡으려" 노력한다 하더라도, 사용자 경험은 뒤처지고 비용은 급격히 떨어지는 현실은 변함없습니다.

네티즌들의 말에 따르면:

오픈아이얼은 지금 당장 더 강력한 모델이 필요한 게 아니라 AMD가 필요합니다. 오픈아이얼이 AMD를 인수하면 이 AI 전쟁은 끝날 겁니다. 구글은 자체 TPU를 보유하고 있기 때문에 오픈아이얼을 두려워하지 않습니다. 하지만 구글이 진짜 걱정해야 할 것은 오픈아이얼이 AMD를 인수하는 것입니다.

최근 영상에서 오픈AI의 사장인 그렉 브록먼은 해시레이트 한계 때문에 새로운 기능(예: 올해 초 출시된 GPT-4o의 지브리 스타일 기능)이 출시될 때마다 연구 부서의 해시레이트 제품 부서로 옮겨야 한다고 인정했습니다. 이는 악순환으로, 현재의 사용자 경험을 유지하기 위해 미래의 기술 개발이 미뤄질 수밖에 없습니다.

하지만 결국 컴퓨팅 파워는 두 단어로 요약됩니다. 바로 돈을 태우는 것, 그것도 엄청난 규모로 돈을 태우는 것입니다.

월스트리트저널(WSJ)에 따르면, 오픈아이(OpenAI)는 1,000억 달러 규모의 대규모 융자 유치를 계획하고 있습니다. 모든 것이 순조롭게 진행된다면, 이 초대형 유니콘 기업은 내년 1분기까지 8,300억 달러의 기업 가치를 달성하며 다시 한번 자본 시장의 이목을 집중시킬 것으로 예상됩니다.

소프트뱅크는 올해 초 오픈AI에 300억 달러를 투자하기로 합의했으며, 지난달에는 투자 자금 마련을 위해 엔비디아 지분 58억 달러어치를 매각했고, 나머지 225억 달러는 최대한 빠른 시일 내에 마무리될 것으로 예상된다.

하지만 자금 문제는 그렇게 간단하지 않습니다. 오픈아이(OpenAI)의 현금 소진액은 2030년까지 2,000억 달러를 넘어설 것으로 예상됩니다. 반면 구글은 재정적으로 건전하며, 오라클과 같은 파트너사의 주가 변동을 통해 오픈아이의 융자 전망에 간접적으로 압박을 가할 수도 있습니다.

곳곳에서 자금 조달에 총력을 기울이고 있는 오픈AI는 시간과의 싸움을 벌이고 있는 듯합니다. 이 때문에 "울트라맨의 융자 능력을 고려하면 언젠가는 구글과 엔비디아까지 '빼앗아 갈' 수 있을지도 모른다"는 농담이 나오기도 합니다.

농담은 그만하고, 돈으로 시간을 살 수는 있지만 좋은 평판은 살 수 없습니다.

따라서 2025년 겨울, 3년간의 급속한 성장을 마친 OpenAI는 브레이크를 걸고 노력을 재정비하고, 자원을 회수하며, ChatGPT의 일상적인 경험에 집중하기로 한 결정이 옳았습니다.

비용이 많이 들었지만 필요한 수정 작업이었습니다.

기술적 리더십이 곧 사용자 친화적인 제품을 의미하는 것은 아니며, 벤치마크 테스트에서 1위를 차지했다고 해서 사용자 만족도가 보장되는 것도 아닙니다. 더욱 중요한 것은 사용자들이 이전 버전을 그리워할 때까지 기다렸다가 그들의 경험에 대해 묻는 것이 아니라, 적극적으로 대응해야 한다는 점입니다.

이 글은 위챗 공식 계정 "APPSO" 에서 APPSO가 작성하고 36Kr의 허가를 받아 게시한 글입니다.

출처

면책조항: 상기 내용은 작자의 개인적인 의견입니다. 따라서 이는 Followin의 입장과 무관하며 Followin과 관련된 어떠한 투자 제안도 구성하지 않습니다.

라이크

즐겨찾기에 추가

코멘트