GPT-5.2의 "지능 저하"에 대한 우려가 온라인상에서 확산되면서 울트라맨 팬들 사이에 불안감이 고조되고 있다.

36氪

12-15

이 기사는 기계로 번역되었습니다

원문 표시

연말 AI 경쟁에서 오픈AI는 구글에게 패배했을까요? GPT-5.2는 출시 48시간 만에 온라인에서 광범위한 비판에 직면했습니다. 하지만 제3자 데이터는 제미니 3 프로가 진정한 승자임을 입증합니다.

OpenAI는 올해의 '비장의 카드'인 GPT-5.2를 꺼냈지만, 결국 구글을 이기지 못했습니다.

Epoch AI의 최신 보고서에 따르면 GPT-5.2는 역량 지수(ECI)에서 152점을 기록하여 Gemini 3 Pro에 이어 2위를 차지했습니다.

여러 벤치마크 테스트에서 GPT-5.2는 모든 분야에서 압도적인 성능을 보여주지는 못했습니다.

수백 명의 수학자들과 협력하여 테렌스 타오가 개발한 프론티어매스 시험에서 GPT-5.2는 T1~3 레벨에서만 우위를 점하고 있으며, T4 레벨에서는 제미니 3가 여전히 최고 수준을 유지하고 있습니다.

또한 GPT-5.2는 체스 퍼즐 부문에서 1위를 차지했습니다.

유일한 예외는 SimpleQA Verified에서 GPT-5.2가 GPT-5.1보다 성능이 떨어진다는 점인데, 이는 반복 작업의 신뢰성이 더 낮다는 것을 의미합니다.

게다가 여러 제3자 벤치마크 테스트 결과에 따르면 GPT-5.2는 기대에 훨씬 못 미치며 Gemini 3보다 성능이 떨어지는 것으로 나타났습니다.

OCR-Arena, simple-bench, Live-Bench에서 GPT-5.2는 Claude Opus 4.5보다도 낮은 순위를 기록했습니다.

GPT-5.2는 출시된 지 겨우 이틀밖에 되지 않아 큰 주목을 받지 못했으며, 오히려 커뮤니티 개발자들로부터 많은 비판을 받고 있습니다.

이 치열한 경쟁에서 승리하기 위해 OpenAI는 "적색 경보"를 발령하고 ChatGPT 개선을 최우선 과제로 삼았습니다.

더욱 극단적인 것은 AGI의 내부 개발이 완전히 중단되었고, 소라는 8주간 정학 처분을 받았다는 점으로, 이는 그녀가 사활을 건 싸움을 벌이고 있음을 분명히 보여준다.

하지만 업계의 관점에서 볼 때, OpenAI는 아직 수동적인 상황에서 벗어나지 못하고 있습니다.

GPT-5를 많이 사용하는 사용자들은 "GPT-5.2는 곧 돌덩이가 될 것"이라고 우려를 표명했습니다.

OpenAI는 연말 경쟁에서 패배한 것일까?

3년 전, 구글은 기회를 놓쳤고 OpenAI의 ChatGPT에 가려졌습니다.

최근 구글 창립자 세르게이 브린은 스탠퍼드 대학교를 방문하여 강연을 하고, 자신의 "가장 큰 실수"를 공개적으로 인정했습니다.

우리가 실수했어요. 인공지능이 잘못된 말을 할까 봐 너무 두려워한 나머지 한 시대를 놓쳤죠.

이제 구글은 제미니 3 프로와 나노 바나나 프로를 통해 AI 열풍의 선두주자로 다시 돌아왔습니다.

뿌린 대로 거둔다. 이번에는 오픈AI 차례였지만, 2025년의 이 중요한 싸움에서 패배하고 말았다.

출시 첫날, 울트라맨은 API 호출 횟수가 1조 토큰을 돌파했으며 증가 속도가 매우 빠르다고 흥분해서 발표했습니다.

앞서 정보 매체는 코드명 '갈릭'으로 불리는 GPT-5.2가 원래 내년 초에 공개될 예정이었다고 보도한 바 있습니다.

실리콘 밸리 전역에 OpenAI의 사전 학습이 종료되었고, GPT-5.1은 40년 이후의 학습을 기반으로 할 가능성이 있어 성능 향상이 미미할 것이라는 소문이 퍼졌습니다.

실제로 OpenAI는 사전 학습 과정에서 확장성 병목 현상에 직면했습니다.

사전 훈련 스케일링은 그다지 효과적이지 않을 수 있습니다.

GPT-5.2(마늘) 개발과 관련하여, 최초 출처에서는 OpenAI가 사전 학습 단계에서 발생했던 몇 가지 핵심 문제를 해결했다고 주장했습니다.

기존의 "최고"이자 "훨씬 더 큰" 사전 학습 모델을 개선합니다.

내부적으로 OpenAI는 "Shallotpeat" 개발 과정에서 수정된 버그들을 통합하고, 풍부한 사전 학습 경험을 축적했습니다.

정보에 명시된 바와 같이, 가장 중요한 돌파구는 "사전 훈련 단계"에서 이루어졌습니다.

하지만 위의 정보는 모두 뉴스 보도에서 발췌한 것입니다. OpenAI가 사전 학습 분야에서 실제로 중대한 돌파구를 마련했는지 여부는 아직 알려지지 않았습니다.

하지만 GPT-5.2가 Gemini 3 벤치마크에서 전반적으로 우수한 성능을 보였다는 사실은 사전 학습 과정에서 कुछ 개선이 이루어졌음을 시사합니다.

하지만 제3자 검토와 사용자 피드백에 따르면 GPT-5.2는 기본 기술 반복 과정에서 어떠한 획기적인 발전도 이루지 못했습니다.

또 다른 Epoch AI 평가에서 Gemini 3는 장기적인 작업 성능 면에서 여전히 최상위 AI 모델들을 능가했습니다.

제미니 3 프로: 4.9시간

GPT-5.2: 3.5시간

작품 4.5: 2.6시간

엔지니어 댄 맥이 언급했듯이, 제미니 3 프로는 강력한 구글 사전 학습 덕분에 더욱 뛰어난 지능을 갖추고 있습니다.

GPT-5.2는 OpenAI의 학습 후 최적화 작업을 통해 최고의 전용 지능을 갖추게 되었습니다.

내년 초에는 훨씬 더 큰 규모의 행사가 있을 예정입니다.

뉴욕 타임스의 최근 보도에 따르면, OpenAI는 향후 몇 주 동안 ChatGPT 최적화에 계속 집중할 예정입니다.

그들은 내년 초에 더 큰 규모의 출시를 준비하고 있습니다.

내부적으로 OpenAI는 B2B 및 B2C 전략 모두에 집중하는 "이중 트랙" 접근 방식을 병행하여 운영됩니다.

OpenAI는 광고 및 전자상거래 관련 시험을 포함한 다른 프로젝트들도 진행하고 있습니다.

비판에도 불구하고, 그들은 ChatGPT를 통해 쇼핑을 완료하고 거래 수수료를 받는 등 "보다 절제된" 방법을 여전히 모색하고 있습니다.

OpenAI는 기업 시장에서 ChatGPT의 기반이 되는 것과 동일한 AI 기술들을 기업용 소프트웨어 분야에 도입하고 있습니다.

데이터에 따르면 ChatGPT는 주간 사용자 수가 8억 명이 넘으며, 이는 약 76%의 시장 점유율 에 해당합니다.

한 AI 전문가는 "소비자용 AI는 OpenAI와 거의 동의어라고 할 수 있습니다. 만약 이것이 사라진다면, 회사는 오늘날과 같은 가치를 갖지 못할 것입니다."라고 말했습니다.

하지만 지난 12개월 동안 전 세계의 많은 AI 스타트업들이 오픈AI의 선도적인 모델과 일부 측면에서 동등하거나 심지어 능가하는 기술을 개발했습니다.

구글 제미니 3 프로의 출시로 오픈AI 업무 에 상당한 타격이 가해졌습니다.

Gemini 3가 GPT-5.2보다 우수한 성능을 보였다. OpenAI는 단순한 속임수였을까?

실제 사용자 테스트 관점에서 볼 때, GPT-5.2는 여전히 개선의 여지가 많습니다.

일부 네티즌들은 더 이상 참지 못하고 OpenAI가 완전히 멍청하다고 단언했습니다.

GPT-5.2의 어조는 북극처럼 차갑고 냉담하며, 사용자 경험을 완전히 무시합니다. "계속 퇴보하여 원래는 정상적이고 자연스러운 언어를 점점 더 과격하게 만들고, 결국에는 온갖 모욕과 설교로 바꿔놓고는 마치 승리인 양 포장합니다."

OpenAI는 제미니 3호 때문에 겁먹을 만하다.

예를 들어, 시각적 추론 분야에서 Gemini 3 Pro는 GPT-5.2를 완전히 능가합니다.

3D 모델 생성에서 GPT-5.2는 속도가 느리고 비용이 많이 들며, 전반적인 성능은 Gemini 3보다 떨어집니다.

파격적인 소설을 창작하는 측면에서 GPT-5.2는 Gemini 3 Pro, Claude 4.5 Opus, Grok 4보다 성능이 떨어져 최하위를 기록했습니다.

일탈적 소설은 사회적 제약과 기본적인 규범에서 벗어나고자 갈망하는 등장인물들을 중심으로 하는 문학 장르입니다.

이러한 작품들은 일반적으로 금기시되는 주제, 어두운 소재, 극단적인 문제들을 다룹니다.

프런트엔드 코드 생성 분야에서는 Gemini 3가 압도적으로 앞서 있으며, GPT-5.2는 여전히 크게 뒤처져 있습니다.

동일한 주제로 53만 명이 넘는 사람들이 피트니스 대시보드 홈페이지에서 Gemini 3, GPT-5.2 및 Claude Opus 4.5의 디자인에 대해 토론했습니다.

키워드: 피트니스 대시보드 홈페이지. 상단에는 주간 활동 개요(간략 카드)가 표시되고, 그 아래에는 오늘 소모한 칼로리와 원형 진행률 표시줄(간략 카드)이 있습니다. 칼로리 카드 아래에는 연속 운동량 카운터가 있으며, 맨 아래에는 주간 운동량 막대 그래프가 있습니다. 모바일 애플리케이션, 단일 화면 표시. 시각적 스타일: 밝은 색상 구성, 부드러운 유백색 배경, 은은한 그림자가 있는 둥근 카드, 주요 강조 색상으로 코랄색, 차트 및 강조 표시된 부분에는 일렉트로닉 블루 사용. 깔끔한 산세리프 서체, 현대적인 카드 레이아웃. 정서: 영감을 주고 활력을 불어넣는. 신선하고 순수하며 접근하기 쉬운. 현대적인 건강 미학, 영감을 주고 활력을 불어넣는.

GPT 5.2는 거의 항상 최하위권에 머물렀습니다.

개발자 마티아는 AI 검색 모델인 퍼플렉시티(Perplexity)를 사용하여 모든 리뷰를 검토했고, 그 결과 제미니 3(Gemini 3)가 최종 승자로 선정되었습니다!

위의 사례들이 단지 개별적인 경우라면, 다음 데이터는 거짓이 아닙니다. GPT-5.2는 Gemini 3 Pro보다 성능이 떨어집니다.

GPT-5.2는 참담한 패배를 당했습니다.

베팅 웹사이트 플로이마켓(Ploymarket)의 대부분 사용자들은 구글이 올해 말까지 최고의 AI 모델을 보유하게 될 것이라고 믿고 있습니다.

사용자 Lisan al Gaib이 만든 소형 수동 변속기 성능 벤치마크인 Dubesors에서 Gemini 3 Pro는 1위를 차지했고, GPT-5.2는 16위를 기록했습니다.

인공지능 안전 연구 및 대중 인식 제고를 위해 노력하는 CAIS(인공지능 안전 센터)가 최신 CAIS AI 대시보드를 발표했습니다. 결과에 따르면 제미니 3 프로는 텍스트 및 시각 처리 능력에서 GPT-5.2보다 우수한 성능을 보였지만, 리스크 지수에서는 GPT-5.2에 뒤처졌습니다.

텍스트 처리 능력 지수 테스트에서 Gemini 3 Pro는 ARC-AGI-2에서만 약간 뒤처졌을 뿐, GPT-5.2에서는 거의 완전히 패배했습니다!

시각 능력 지수 테스트에서 제미니 3 프로는 GPT-5.2의 평균 점수보다 4.5점 높은 점수를 기록하며 거의 모든 테스트에서 다시 한번 1위를 차지했습니다!

리스크 지수 테스트에서 GPT-5.2는 Gemini 3 Pro보다 우수한 성능을 보였지만 Claude Opus 4.5 및 Claude Sonnet 4.5에는 뒤처졌습니다.

터미널 환경에서 자율 에이전트를 구동하는 언어 모델의 능력을 평가하는 테스트 플랫폼인 Terminus에서 Gemini 3.0 Pro와 GPT-5.2는 거의 동등한 성능을 보이지만, 높은 추론 모드에서는 Gemini 3.0 Pro가 GPT-5.2보다 평균 0.2% 더 우수한 성능을 나타냅니다.