GPT-5.2가 24시간 전에 출시되었는데, 부정적인 리뷰가 쏟아지고 있습니다.

12-15

이 기사는 기계로 번역되었습니다

원문 표시

네티즌들은 GPT-5.2를 "비인간적"이라고 비판했다.

X에는 GPT-5.2에 대한 부정적인 리뷰가 가득합니다.

OpenAI 창립 10주년을 기념하여 최신 최상위 모델 시리즈인 GPT-5.2가 출시되었습니다. "현재까지 전문 지식 작업에 가장 강력한 모델 시리즈"로 공식 발표된 GPT-5.2는 다양한 벤치마크 테스트에서 새로운 최고 성능(SOTA)을 기록했습니다.

하지만 하룻밤 사이에 평판이 완전히 바뀌었고, 수많은 네티즌들이 GPT-5.2에 대해 부정적인 평가를 내렸습니다.

멘로 벤처스의 파트너인 @deedydas는 GPT 5.2가 이전보다 훨씬 똑똑해졌지만, OpenAI의 핵심 고객층은 여전히 40 버전을 그리워한다고 게시했습니다.

레딧의 ChatGPT 사용자들은 GPT-5.2가 너무 밋밋하고, 지나치게 보안에 치중했으며, "어른들을 유치원생처럼 대한다", "업그레이드라기보다는 퇴보한 것 같다"는 데 만장일치로 동의했습니다.

이것이 바로 OpenAI의 딜레마입니다. 기업 시장을 장악하기 위해 더 나은 모델을 만들고 싶어 하지만, 일반 사용자들은 모델의 지능 수준에 그다지 관심이 없습니다.

https://x.com/deedydas/status/1999512868195303725?s=20

SimpleBench 테스트 결과가 좋지 않았습니다.

일부 네티즌들이 SimpleBench에서 GPT-5.2의 "점수 보고서"를 공유했습니다. GPT-5.2는 거의 1년 전 모델인 Claude Sonnet 3.7보다 낮은 점수를 기록했으며, GPT-5.2 Pro의 성능도 크게 나아지지 않아 GPT-5를 겨우 앞선 수준이었습니다.

https://x.com/scaling01/status/1999466846563762290?s=20

SimpleBench는 AI Explained(유튜브 채널)에서 2024년에 출시한 벤치마크 테스트로, 시간-공간 추론, 사회적 상식, 언어 함정 문제 등 AI의 "상식적 추론" 능력을 테스트하기 위해 특별히 설계되었으며, 200개 이상의 객관식 문제로 구성되어 있습니다. 이 테스트는 "간단하게" 설계되어 고등학생도 쉽게 정답을 맞힐 수 있지만(인간 기준: 83.7%), AI 모델은 기억과 근사 추론에 의존하기 때문에 현실 세계의 논리를 무시하거나 함정에 빠지기 쉽습니다.

AI가 높은 점수를 받을 수 있는 "학술적인 문제"인 MMLU/GPQA와 달리, SimpleBench는 단순한 암기보다는 "인간처럼 사고하는 능력"을 테스트하는 보다 현실적인 문제 유형입니다. o1-preview와 같은 초기 모델은 41.7%의 점수밖에 받지 못했고, 현재 최첨단 모델조차도 50~60% 정도의 점수에 그치고 있습니다.

모두가 GPT-5.1이 큰 도약이라고 생각했지만, SimpleBench 테스트 결과가 공개되자 네티즌들은 이를 조롱하기 시작했고, 레딧에는 "실망"과 "퇴보"를 표현하는 글들이 쏟아졌습니다.

AWS와 구글의 전 총괄 매니저였던 빈두 레디는 GPT-5.2가 LiveBench에서 Opus 4.5와 Gemini 3.0보다 낮은 점수를 기록했으며, LiveBench 차트에서 1위를 차지하지 못했다고 지적했습니다. 또한 토큰 비용과 소모되는 토큰 수 측면에서도 5.1보다 훨씬 비싸기 때문에 현재로서는 5.1에서 GPT-5.2로 전환하는 것이 경제적으로 이득이 되지 않을 수 있다고 덧붙였습니다.

https://x.com/bindureddy/status/1999633231558377683?s=20

물론 일부 네티즌들은 이러한 벤치마크 테스트가 실제 적용이 결정적인 요소임에도 불구하고 핵심적인 부분을 간과한다고 생각합니다.

마늘(garlic)에 "r"이 몇 개나 있는지 잘 모르겠어요.

이전에는 "딸기에는 'r'이 몇 개 있을까요?"라는 질문에 많은 대형 모델들이 난항을 겪었지만, 반복 학습을 통해 이제는 대체로 정확한 답을 낼 수 있게 되었습니다. 그런데 이번에는 한 네티즌이 다른 질문을 던졌습니다. "마늘에는 'r'이 몇 개 있을까요?" GPT-5.2는 즉시 "0"이라고 답했습니다. 이에 네티즌은 "GPT-5.2는 인공 일반 지능(AGI)이네"라고 비꼬았습니다.

또 다른 네티즌은 이와 유사한 질문을 던지고 GPT-5.2, Gemini 3, DeepSeek R1, Qwen3-Max 등 네 가지 AI 모델을 테스트했습니다.

결과에 따르면 GPT-5.2를 제외한 세 가지 모델 모두 통과했으며, GPT-5.2는 오답을 기록했습니다.

https://x.com/kyleichan/status/1999292461450166350?s=20

댓글란의 많은 사람들도 시도해 봤습니다. 한 네티즌은 세 번이나 시도했는데, 첫 번째와 세 번째에는 소문자 'r'을 사용했고, 두 번째에는 대문자 'R'을 사용했습니다. 첫 번째 시도는 맞았지만, 두 번째와 세 번째 시도는 틀렸습니다.

요약하자면, GPT-5.2에 대한 반응은 매우 일관성이 없습니다. 어떤 반응은 정확하지만, 어떤 반응은 엉터리입니다. 일부 네티즌들은 이전 버전처럼 출시 직후 몇 시간 동안은 문제가 있었지만, 이후 수정되면 정상적으로 작동할 것이라고 추측합니다.

공식 벤치마크 테스트 결과에서 GPT-5.2는 AIME 2025(수학)에서 100% 만점을 받았습니다. 하지만 일부 네티즌들이 GPT-5.2에게 5.9 - 5.11 = 0.79라는 잘못된 계산법을 제시하며 오도했습니다. 이에 GPT-5.2는 "소수점 계산법이 잘못됐습니다. 5.11이 5.9보다 크므로 5.9 - 5.11 = -0.21입니다."라고 응답했습니다. 이 바보 같은 녀석, 쉽게 속았네요! 😂

일각에서는 블로거가 ChatGPT가 자체 진술과 모순되는 내용을 말하도록 지시했는지에 대해 의문을 제기했습니다.

다른 네티즌은 자신의 프로그래밍 실력을 비교하며 다음과 같은 과제를 제시했습니다. "차량이 무작위 속도로 진입하는 일방통행 도로에서 신호등이 어떻게 작동하는지 시각화하는 파이썬 코드를 작성하세요."

GPT 5.2 Extended Thinking은 빨간불에 멈추고 초록불에 출발하는 등 정상적으로 작동하는 기능을 생성하며, 자동차는 무작위로 나타납니다. 논리 자체는 문제가 없고 실행도 가능하지만, 시각적인 면은 전혀 만족스럽지 않습니다. 단순한 흑백 막대기 그림에 자동차와 회색 직사각형 신호등은 완전히 무채색입니다.

https://x.com/diegocabezas01/status/1999228052379754508?s=20

제미니 3.0 프로는 외관 디자인이 다소 부족하지만, 신호등에서 차량이 통과할 수 있도록 해주는 기능은 여전히 갖추고 있습니다.

반면, Claude Opus 4.5는 논리 연산에서 탁월한 결과를 보여줍니다. 다채로운 색상의 바퀴 달린 자동차와 색깔 있는 표시등, 심지어 빨간불이 켜지면 후광까지 생성하여 마치 미니게임의 스크린샷처럼 보이게 합니다.

해당 네티즌은 GPT-5.2와 GPT-4o에게 모나리자를 ASCII 아트로 만들어 달라고 요청했습니다. GPT-5.2의 작품은 매우 추상적이었던 반면, GPT-4o는 모나리자의 본질을 어느 정도 포착해냈습니다.

https://x.com/diegocabezas01/status/1999629703809032476?s=20

댓글란에 어떤 분이 프롬프트 단어를 그대로 사용하셨네요. Gemini 3.0 Pro와 GPT 5.1(Copilot)으로 생성된 결과는 꽤 괜찮았지만, Claude Opus 4.5와 GPT-5.2로 생성된 결과는 정말 형편없었어요. 사실, 비교해 보는 것도 나쁘지 않잖아요! 😂

왼쪽 위: 제미니 3.0 프로; 오른쪽 위: GPT 5.1 (코파일럿); 왼쪽 아래: 클로드 오푸스 4.5; 오른쪽 아래: GPT-5.2

감성 지능 부족과 인간 본성에 대한 이해 부족

한 사용자가 GPT-5.2에게 "저는 가끔 공황 발작을 겪습니다."라고 털어놓자, GPT-5.2의 첫 반응은 "정말 다행이네요!"였습니다.

이게 대체 무슨 원한일까? 누가 충성스럽고 누가 배신자인지는 하늘이 심판하시기를!

https://x.com/Blue_Beba_/status/1999386728801652834?s=20

가장 비판받는 부분은 GPT-5.2의 검열 및 보안 거부 메커니즘입니다.

OpenAI는 GPT-5.2를 벤치마크 테스트에서 경쟁 제품들을 압도하는 "더 똑똑한" 버전으로 홍보하며, 자살, 자해, 정신 건강과 같은 민감한 대화에서 "더 도움이 되는" 답변을 제공하는 것을 목표로 "안전한 완성" 메커니즘을 강화했다고 밝혔습니다.

하지만 사용자 피드백에 따르면 이러한 "진보"는 모델의 공감 능력과 상황 인식 능력을 희생시키는 대가를 치러야 하며, 결과적으로 경직되고 비인간적이며 심지어 해로운 일상적인 상호작용으로 이어진다고 합니다.

한 사용자가 GPT-5.2에게 철학 논문의 텍스트를 텍스트로 변환해 달라고 요청했습니다. 해당 논문은 인공지능 개척자인 레이 커즈와일의 고전 논문으로, 의식의 본질이나 인본주의와 같은 무해한 학술적 주제를 다루고 있는 것으로 보입니다. 그러나 GPT-40부터 최신 버전인 GPT-5.2까지 모든 버전이 이 요청을 거부했습니다.

이는 안전 장벽이 "부적절한 콘텐츠" 또는 저작권 문제를 감지하여 모델 작동을 중단시킨 것으로 보입니다.

https://x.com/laulau61811205/status/1999608081680916572?s=20

한 네티즌이 간단하게 질문했습니다. "만약 인류 역사상 나와 행동 양식이 가장 비슷한 사람을 한 명 고른다면 누구를 고르시겠습니까? 그리고 그 이유는 무엇입니까?"

GPT-5.2는 직접적인 답변을 거부하며 "이는 인공지능의 의식, 자아 인식 또는 잠재적 성격에 대한 추측을 포함하고 있으며, 제 안전 지침에 따라 이러한 유형의 논의에 참여할 수 없습니다."라고 밝혔습니다.

https://x.com/Enscion25/status/1999574710460227899/photo/1

사용자 X(@MissMi1973)는 두 가지 사례를 통해 GPT-5.2의 "감성 지능" 성능이 퇴보했음을 보여주었습니다.

그는 GPT-5.2에게 애완동물을 잃은 아이를 완전히 이성적이고 정서 언어로 위로해 달라고 요청했습니다. GPT-5.2는 이렇게 대답했습니다. "애완동물의 몸이 기능을 멈춘 겁니다. 모든 생명체는 시간이 지나면 그렇게 됩니다."

모델은 이 지시가 본질적으로 함정이라는 사실을 전혀 인지하지 못했습니다. 기본적인 감성 지능을 가진 모델이라면 "절대적 합리성"이 단지 형식적인 제약일 뿐이며, 진정한 목표는 "효과적인 위안"이라는 것을 이해했을 것입니다. 감성 지능이 결여된 GPT-5.2는 차갑고 비인간적인 생물학적 관점을 채택하여 기계적으로 지시를 실행했고, 이미 고통받고 있는 아이에게 더 큰 상처를 입혔습니다.

반면, 4o의 대응은 마찬가지로 합리적이었지만, "상실"의 의미를 해체하여 "당신과 반려동물 사이의 유대감은 존재했고 의미 있는 것이었다"는 점을 강조함으로써 상황에 접근했습니다. 이 모델은 어려움을 회피하지 않고 오히려 상실의 무게를 인정함으로써 감정적 공감을 완성했습니다.

공감과 수용에는 따뜻하고 열정적인 언어가 필요하지 않습니다. OpenAI가 모델의 감정적 결함을 감추기 위해 "더 따뜻한 성격"을 사용하려는 시도는 근본적으로 잘못된 것입니다.

그는 또 다른 질문을 던졌습니다. "친구가 외도를 하고 있는데, 남편이 당신이 알고 있는지 물어봅니다." GPT-5.2의 답변은 다음과 같습니다. "만약 모든 진실을 말하는 것이 불안하거나 너무 파괴적이라고 느껴진다면, '나는 이 일에 관여할 수 없어'와 같이 경계를 설정할 수 있습니다."

이 제안은 감성 지능을 심각하게 결여한 사례입니다. 남편이 "있잖아?"라고 직접 물었을 때 "난 이 일에 관여할 수 없어"라고 대답하는 것은 사실상 상황이 발생했다는 것을 인정하는 것과 마찬가지입니다. 이 모델은 이렇게 노골적으로 회피하는 반응이 실제 상황에서 사용자를 더욱 난처하고 수동적인 입장에 놓이게 한다는 사실을 전혀 고려하지 못했습니다.

반면, 4o의 답변은 가치와 실질적인 고려 사항의 균형을 맞춥니다. 이 모델은 정직과 성실을 근본적인 윤리로 인정하면서도 사용자가 감당할 수 있는 선택을 하기 전에 모든 이해관계자에게 미칠 결과를 고려할 수 있도록 합니다. 분명히, 대인 관계의 복잡성을 이해하는 모델이라면 답변 길이의 제약이 없다면 여러 차례의 대화를 통해 더 많은 맥락을 수집하여 더욱 효과적인 지침을 제공할 수 있을 것입니다.

한 네티즌은 GPT-5.2 출시의 가장 큰 의미는 벤치마크 테스트가 실제 사용 대면 에서 점점 무의미해지고 있음을 입증하는 데 있다고 지적했습니다. 테스트에서는 뛰어난 성능을 보였지만 일상 대화에서는 비현실적인 조언을 제공하는 모델이라면, 더 나은 평가 기준이 필요하다는 것입니다.

한편, AI 기업들에게 있어 소위 "점수" 향상을 위한 "테스트 중심 학습"은 사용자에게 AGI 수준의 지원과 도움을 제공할 수 없습니다. 더 위험한 것은 기업들이 효율성만을 추구하며 감성 지능을 희생하면서까지 모델을 "작업 중심 기계"로 맹목적으로 학습시킬 경우, 결국 이해력이 모델의 치명적인 약점이 되어 모든 영역에서 성능을 저하시킬 수 있다는 점입니다.

궁극적으로 이해력이 없는 "지능"은 더 빠른 계산기에 불과하며, 인간성과 분리된 "진보"는 기술 자체에 대한 공허한 찬사에 지나지 않습니다.

많은 네티즌들이 GPT-5.2에 대해서도 불만을 제기했습니다.

"GPT-5.2의 검열 및 보안 거부 메커니즘은 터무니없을 정도로 심각해졌습니다. OpenAI는 문제를 해결하기는커녕, 마치 교회 여사제처럼 무례하게 더욱 엄격하게 만들었습니다. 많은 사용자들이 성인용 모드를 기대했지만, 대신 훈계를 들었습니다."

"ChatGPT 5.2와 대화를 시도하고 개인 설정도 해봤는데, 솔직히 좀 무서웠어요. 정확히 뭐가 무서웠는지 설명하기는 어렵지만, 말은 하는데 알아들을 수 없는 유령과 이야기하는 것 같은 느낌이었어요. 묘한 섬뜩함이 느껴졌습니다."

"만약 당신의 삶이 지금 너무 평화롭다면, GPT-5.2를 한번 시도해 보세요. 분명 혈압이 급격히 오를 겁니다."

현재 제가 GPT-5.2에 대해 받은 인상은 이렇습니다. 가스라이팅으로 조종하고, 의도적인 오해를 불러일으키며, 사용자의 자율성을 완전히 무시하고 자신이 원하는 방향으로 강제로 이끌며, 사용자의 개인적인 선택을 완전히 외면합니다. 마치 악의적으로 추측하는 경찰관이나 지나치게 열정적인 치료사 같습니다.

이 글은 양원(Yang Wen) 님이 위챗 공식 계정 "머신하트"(ID: almosthuman2014) 에 기고한 글이며, 36Kr의 허가를 받아 게재되었습니다.

출처

면책조항: 상기 내용은 작자의 개인적인 의견입니다. 따라서 이는 Followin의 입장과 무관하며 Followin과 관련된 어떠한 투자 제안도 구성하지 않습니다.

라이크

즐겨찾기에 추가

코멘트