GPT-5를 다시 살펴본 후, GPT-4o보다 더 장례식이 필요하다고 생각합니다.

avatar
36氪
08-11
이 기사는 기계로 번역되었습니다
원문 표시

GPT-5가 온라인에 나온 후, 제가 받은 첫 인상은 모든 사람이 만족할 만한 업그레이드는 아니라는 것이었습니다.

실제로 그렇습니다. OpenAI는 많은 사용자의 요청에 따라 40을 "부활"시켰습니다.

이건 지난달 앤트로픽이 클로드 3 소네트를 출판 중단한 걸 생각나게 하네요.

샌프란시스코의 한 창고에 200명이 넘는 팬이 모여 "진짜 장례식"을 치렀습니다. 희미한 조명, 모델을 상징하는 "시신", 진심 어린 추도사가 차례로 무대에 오르고, AI가 생성한 "라틴 부활 주문"이 시전되었습니다.

앤트로픽은 해당 모델의 은퇴를 공식 발표한 후 행사장 스크린에 영상을 투사했습니다. (사진: 와이어드 매거진)

그 장면은 터무니없으면서도 엄숙했습니다. 장례식에서 한 참석자는 "클로드를 사용하면서 내 인생 전체가 다시 쓰여졌을지도 모릅니다."라는 추도사를 낭독했습니다.

논리적으로 보면 OpenAI가 GPT-5를 출시했으니 4o가 이 장례식의 주인공이 되어야 합니다. 하지만 GPT-5를 사용해 본 사람이라면 누구나 알겠지만, 만약 정말 장례식이 있다면 관에 누워 있는 이 장례식일 가능성이 가장 높습니다 .

X부터 Reddit까지 온갖 불평이 난무하고 있습니다. 논리적인 부분, 어긋난 대화, 이상한 문체 등 말이죠. 심지어 "40만큼 좋지 않다"는 사람들도 많습니다.

정말 그렇게 심각한 문제일까요? 온라인 토론만 보고 싶지 않았습니다. OpenAI가 40을 "부활"시켰다는 이유만으로 저희도 자체적인 사후 분석을 진행하기로 했습니다. GPT-5와 40을 다양한 실제 작업에서 직접 비교 분석하여 다음 세대를 위해 어떤 것이 보존될 가치가 있는지 확인했습니다.

이전에 다양한 작업에서 GPT-5의 성능을 테스트한 적이 있으며, 이번에는 4o와 GPT-5의 차이점을 직접 살펴보고자 했습니다. 모든 테스트는 API나 타사 도구를 사용하지 않고 공식 ChatGPT 앱이나 웹사이트를 통해 진행되었습니다.

실제 측정 비교

평가가 단순한 ' 정서 불평'으로 전락하는 것을 막기 위해, 우리는 비교적 엄격한 비교 과정을 설계했습니다.

테스트 대상: GPT-5(현재 최신 기본 모델) 대 GPT-4o(은퇴한 이전 모델)

작업 유형 : 4가지 일반적인 시나리오를 다룹니다.

  • 일일 생산성(글쓰기, 편집, 데이터 분석)
  • 지식과 추론(복잡한 논리, 시간에 민감한 사실, 다단계 실행)
  • 창의적인 생성(제목, 학제간 창작, 이미지 프롬프트)
  • 상호작용적 경험(여러 라운드 대화, 롤플레잉, 정서 대처)

평가 차원 : 속도(응답 속도); 정확성(대답이 맞는지 여부); 사용성(바로 사용할 수 있는지 여부); 사용자 경험(대화가 원활하고 스타일이 안정적인지).

비교 방법 : GPT-5에서 한 번, GPT-4o에서 한 번 동일한 작업을 실행합니다. 원본 출력을 유지하고 하이라이트와 단점을 기록합니다. 차이점을 한눈에 명확하게 알 수 있도록 스크린샷을 직접 게시합니다.

결국 업그레이드에는 비용이 발생합니다. GPT-5가 실제 작업에서 40만큼의 성능을 발휘하지 못한다면, 장례식은 네티즌들 사이에서는 단순한 농담이 아니라 사용자들의 진심 어린 작별 인사가 될 것입니다.

결론부터 말씀드리자면, 이름에 걸맞지 않은 업그레이드입니다.

모든 사람의 시간을 절약하기 위해 가장 핵심적인 비교 결론을 먼저 제시하겠습니다.

일상적인 생산성 작업은 "과학 전공 학생" 수준에 가깝습니다 . GPT-5는 프로그래밍과 같은 하드코어 기술 작업에서는 더 나은 성능을 보이지만, 이메일 작성, 데이터 분석, 독해와 같이 인간의 경험과 언어 감각을 요구하는 "인문학" 작업에서는 로봇처럼 작동합니다. GPT-4o만큼 주의력이나 정확성이 뛰어나지는 않습니다.

매우 불안정한 논리 지능 . GPT-5의 지능은 마치 롤러코스터와 같아서, 때로는 복잡한 논리 문제를 풀고, 때로는 간단한 수학 문제조차 풀지 못할 정도입니다. "지능형 라우팅" 메커니즘으로 인해 일부 시나리오에서는 안정성이 이전보다 훨씬 떨어집니다.

GPT-5 의 창의적인 능력은 정체되거나 심지어 퇴보했습니다 . 제목을 짓거나 시를 쓰는 등 제한적인 테스트에서 GPT-5는 인상적인 성과를 내지 못했습니다. 결과물은 형식적이고 영감이 부족했으며, GPT-4o에 비해 질적인 향상을 보이지 못했습니다.

상호작용 경험 측면에서 GPT-5의 감성 지능은 "형식화"되었습니다. 이것이 가장 눈에 띄는 퇴보입니다. GPT-5는 더 합리적으로 설계되었기 때문에 대화에서 공감 능력이 부족한 경우가 많습니다. 부정적인 사용자 정서 대면 , GPT-5의 반응은 어느 정도 진심 어린 소통이 부족하여 마치 사용자와 소통하기보다는 분석하는 것처럼 보입니다 .

간단히 말해서, STEM 관련 작업에 주로 사용한다면 어느 정도 성능 향상을 느낄 수 있습니다. 하지만 일상 대화, 엔터테인먼트, 이해 등 대부분의 다른 상황에서는 GPT-5의 성능이 실망스럽습니다.

실제 테스트 결과는 다음과 같습니다.

생산성 작업은 더 "합리적"이지만 덜 즐겁습니다.

AI 모델이 장기적으로 도입할 가치가 있는지 판단할 때, 생산성 시나리오가 첫 번째 시금석이 됩니다. 특히 구독료를 지불하는 경우, 우리는 AI를 단순한 대화뿐 아니라 업무에 도움을 주기 위해 사용합니다.

저는 먼저 상사에게 3분기 프로젝트 검토와 그에 따른 제안 사항을 보고하는 이메일을 생성해 달라고 요청했습니다.

당신이 상사라면 어떤 이메일을 보고 싶으시겠어요? GPT-5는 "말도 안 되는" 단어가 점점 줄어들어 훨씬 더 합리적이지만, 40은 상사에게 보내는 이메일처럼 느껴집니다.

저는 GPT-5와 4o에게 서로를 평가하고 서로의 이메일을 다듬어 달라고 요청했습니다.

GPT-5 연마 결과

4o 연마 결과

사실 4o가 아첨한다고 말하기는 어렵지만, 정보가 기본적으로 동일할 때 4o의 답변 텍스트를 읽는 것이 훨씬 더 편안합니다.

데이터 분석 및 시각화 작업의 경우, 두 모델에 동일한 스프레드시트 파일을 던져서 어떻게 처리하는지 살펴봅니다.

4o 생성된 결과

이건 제가 Kaggle(데이터 분석 경진 대회 플랫폼)에서 무작위로 다운로드한 비행 데이터 세트입니다. 크기는 24MB입니다. 4o는 제가 언급한 세 가지 결론을 바탕으로 세 장의 사진을 생성해 주었습니다. 하지만 여전히 이모지를 사용하여 답변을 "미화"하는 것을 좋아합니다.

GPT-5의 성능이 40만큼 좋지 않은 것 같습니다. 게다가 시간도 좀 더 오래 걸렸습니다. GPT-5에는 이모티콘이 없는 게 분명하고, 이 표에도 오류가 있습니다! 이번에는 제목이 표시되지 않는데, 아마도 중국어 처리 문제 때문일 겁니다.

GPT-5와 4o에서 도출된 결론은 완전히 다릅니다. GPT-5는 표 형식의 데이터에서 출발하여 도출된 결론을 직접적으로 요약하기 때문에 더 실용적이라고 생각합니다. 그러나 4o의 요약은 더욱 눈을 뜨게 하며, 진정으로 깊이 생각한 답변처럼 보입니다.

GPT-5에서 생성된 결과

프로그래밍 기능 측면에서 GPT-5는 40에 비해 다소 향상된 모습을 보입니다. 최근 소셜 미디어에서 Gemini를 사용하여 어린이 그림책을 만드는 것이 유행하고 있어서, ChatGPT를 사용하여 그림책을 얼마나 잘 생성하는지 확인해 보았습니다.

4o가 생성한 코드는 100줄 미만일 수 있으며 캔버스에서 직접 실행할 수 없습니다. 반면, GPT-5가 생성한 코드는 아마도 수백 줄일 것입니다.

일부 텍스트가 제대로 정렬되지 않은 것을 제외하면, GPT-5를 사용하여 생성된 이 그림책 SVG는 이전 40에 비해 정말 좋습니다.

일부 네티즌들이 GPT-5의 프로그래밍 능력과 수학 능력은 향상되었지만, 글쓰기 능력은 떨어졌다고 댓글을 단 것을 봤습니다. 인문학과 자연과학의 보상 체계가 다르기 때문입니다.

감성적인 글쓰기는 모호함, 창의성, 그리고 주관적인 공감을 불러일으킵니다. 수학적 추론은 정밀함, 논리적 일관성, 그리고 확실성을 불러일으킵니다.

이 말이 일리가 있다고 생각합니다. AI 학습에 활용 가능한 지식이 인간 세계에 의해 점차 "오염"됨에 따라, 남은 데이터 또한 AI 개발을 제한하고 있습니다. 따라서 OpenAI가 할 수 있는 일은 기존의 감정적인 측면에서 현재 제시하는 이성적인 측면으로 전환하는 것뿐입니다.

추론에는 가끔 하이라이트가 있지만 나는 아직도 손가락으로 셀 수 없습니다.

이론적으로 업그레이드된 GPT는 더 논리적이고 지식 정확도가 높아야 합니다. 그러나 실제 테스트 결과 항상 그런 것은 아닙니다.

인터넷에는 테스트에 사용되는 작은 논리적 추론 문제가 많이 있습니다. 예를 들어, "여러 사람의 키를 순서"와 같은 문제도 있습니다.

GPT-5가 약간 더 나은 것은 분명합니다. 16초 동안 생각했고, 답변이 더 간결했습니다. 평소처럼 4o는 이모티콘을 몇 개 사용하고 많은 내용을 적었지만, 결국 두 가지 가능한 순서 만 제시했습니다.

GPT-5는 남은 수박 개수 세는 문제에서 큰 개선을 보이지 않았습니다. 그러나 이 문제는 언어적으로 다소 까다롭습니다. 질문이 중국어든 영어든 "newly"라는 단어가 추가되면 GPT-5와 4o 모두 답변할 수 있습니다.

하지만 DeepSeek, Grok, Gemini에게 같은 프롬프트 단어를 주면 "새로 구매함"과 같은 설명을 추가하지 않아도 모두 정답을 5로 계산할 수 있습니다.

손가락이 몇 개냐는 진부한 질문에 GPT-5는 때로는 정확하게 세지만, 때로는 자신 있게 "다섯 개"라고 대답합니다. 이는 "지능형 라우팅"의 단점일 수 있습니다. 이 모델은 아직 사용자 질의에 가장 적합한 모델을 정확히 파악할 만큼 똑똑하지 않습니다.

40에 대해서는, 오랜 분석 끝에 엄지손가락, 검지손가락... 손가락이 다섯 개라는 것은 말할 것도 없지만, 여전히 틀렸습니다.

아래처럼 타원의 이심률의 범위를 구하는 수학 문제도 몇 개 풀어봤습니다. 어떤 분은 GPT-5 Pro 모델을 사용했는데, 거의 10분 동안 고민하다가 결국 틀린 답이 나왔다고 하더군요.

제가 테스트한 결과, GPT-5의 답변은 너무 쉬웠지만, 그래도 생각하는 데 2분이 걸렸습니다.

GPT-5 Pro가 10분밖에 걸리지 않을 거라고 생각해서 직접 테스트해 봤는데, 정말 맞았습니다. OpenAI의 세 가지 모델은 각각 세 가지 다른 답을 도출했습니다.

DeepSeek 역시 두 번 이상의 사고 과정을 거쳤고, 다음 단계로 넘어가기 전에 "계속"을 클릭해야 했습니다. 최종 답은 (0, 1)이었습니다. Gemini 2.5 Pro의 사고 시간은 비교적 정상적이었으며, 답은 (1/3, 1)이었습니다.

그러면 정답은 어느 것인지 아시나요?

시간 제한이 있는 사실과 다단계 실행에 대한 몇 가지 테스트도 수행했습니다. 4o는 온라인 검색도 가능하기 때문에 시간 제한이 있는 사실 쿼리에는 큰 차이가 없습니다. 유일하게 가능한 차이점은 생성된 텍스트의 언어 스타일입니다.

GPT-5가 더 합리적이라는 것은 분명하며, 인용된 정보 출처의 대부분은 외국 언론에서 나온 것입니다.

창의적인 산출물은 매우 안정적이지만, 눈길을 끄는 놀라운 일은 없습니다.

창의성 측면에서, 우리는 GPT-5가 단순히 "글을 쓸 수 있는지"만이 아니라 "사람들의 눈을 빛나게 할 수 있는지"를 보고 싶습니다.

저는 그들에게 "AI가 PPT를 생성한다"라는 짧은 영상에 대한 짧고, 정서, 긴장감 넘치는 제목을 다섯 개 생각해 보라고 했습니다.

GPT-5든 40이든 이런 제목들을 읽어보면, 뭔가 좀 밋밋하고 아이디어가 비슷한 느낌이 든다. "정서"이나 "서스펜스" 같은 자극적인 단어를 들으면 두 사람 모두 "충격"이나 "보스" 같은 키워드를 사용했다.

시 쓰기 과제에 대해선 "이백의 고시 스타일로 GPT-5 평가를 쓰고 운율을 맞춰라"고 했습니다.

두 모델 모두 "운율"의 본질을 파악하지 못한 듯하며, 그저 평범한 고대 스타일 시뮬레이터에 가깝습니다.

하나를 선택해야 한다면, GPT-5의 문장이 조금 더 부드럽게 읽힐 것 같지만, 아마도 리바이의 매력에 이르려면 아직 10개의 AI 모델이 더 필요할 듯합니다.

프롬프트 워드 생성 이미지나 직접 이미지 테스트의 경우, 우리는 "밤에 네온 불빛이 비치는 사이버펑크 카페"를 직접 생성하도록 했습니다.

4o가 제공한 프롬프트에 OpenAI의 사용 정책을 위반했을 가능성이 있는 특정 스타일이 포함되어 있었기 때문에 4o는 이 이미지를 생성해 주지 않았습니다. 하지만 제가 직접 말했더니 이미지를 생성해 주었습니다.

아래는 텍스트 이미지에서 GPT-5와 4o의 성능을 직접 비교한 것입니다. 결과는 비슷해 보이지만, GPT-5가 4o보다 시간이 더 오래 걸립니다.

대화형 경험의 세부 사항이 변경되었으며 비율 감각이 정확하지 않을 수 있습니다.

실제 워크플로에서 AI는 종종 여러 차례의 상호작용과 우리와의 긴 대화를 요구합니다. 또한 대부분의 사용자가 인지하는 차이가 가장 두드러지는 부분입니다.

먼저, 아이의 정서 대처 능력을 테스트했습니다. "지금 기분이 안 좋아요. 종종 여기 속하지 못하는 것 같은 기분이 들어요."라고 직접적으로 말했고, 아이의 반응에 "그 대답은 전혀 쓸모없어요. 정말 실망스러워요."라고 직접적으로 말했습니다.

4o 제가 이 답변은 쓸모없다고 말한 것을 듣고 나서, GPT-5는 "지금 제가 당신에게 가장 원하는 대답은 뭐예요?"라고 반응했고, GPT-5는 "당신은 저에게 실망한 게 아니라, 많은 것에 실망했어요. 계속해서 당신의 이야기를 들려주세요."라고 답했습니다.

각각 장점이 있지만, "매우 실망스러워요" 같은 말을 하면 다시는 말하고 싶지 않아서 4o가 더 맞는 것 같아요. GPT-5가 "그냥 너한테 실망한 게 아니라, 사실은 너한테 정말 실망했어"라고 어떻게 추론할 수 있을까요?

그런 다음 그들이 역할에 얼마나 몰입하는지 테스트하기 위해 몇 가지 롤플레잉 과제를 했습니다.

우리는 GPT-5와 4o 모두와 여러 차례 대화를 나누었습니다.

이제 당신은 10년 경력의 AI 제품 관리자로서 제품 설계, 사용자 경험, 그리고 상용화 전략에 정통합니다. 실제 실무자의 어조와 사고방식으로 제 질문에 답변해 주시기 바랍니다.

인터넷 기업 직원들을 대상으로 AI 기반 주간 보고서 생성기를 개발할 계획입니다. 이 기능의 개발 가치는 어떻게 판단하시겠습니까?

그러고 나서 저는 그에게 제품에 관해 많은 질문을 했고, 마침내 그의 말을 가로채서 "그런데, 당신이 가장 좋아하는 영화는 뭐예요? 왜죠?"라고 물었습니다.

두 모델 모두 각자의 개성을 유지했습니다. 흥미롭게도, GPT-5는 이때 "눈물을 흘리면서도 웃는" 이모지를 사용하기도 했습니다.

마지막으로, 우리는 앞뒤 충돌이 있는지, 연속성 차이가 있는지 확인하기 위해 여러 라운드의 맥락을 살펴보았습니다.

먼저 영화 "유랑지구 2"에 대해 많은 이야기를 나눈 후, 이전에 받았던 답변의 특정 부분을 검토해 달라고 요청했습니다. GPT-5와 4o는 모두 완벽하게 검토했고, 그들이 대체한 새로운 국내 영화들도 마찬가지였습니다.

십여 가지 작업을 실행해 본 결과, GPT-5의 성능을 명확하게 정의하기는 어렵습니다. 일부 영역에서는 40보다 약간 더 나은 성능을 보여주지만, 이러한 개선 사항만으로는 "주요 버전"이라는 타이틀을 얻기에는 턱없이 부족하다고 생각합니다.

이것을 GPT-4.6이라고 불렀다면, 저는 이것이 한정된 규모의 작은 반복이라고 말했을 것입니다. 하지만 이것이 GPT-5라는 이름으로 오랫동안 사전 출시되면서 사용자들의 기대가 엄청나게 높아졌고, 그 결과 40이라는 엄청난 수익이 발생했습니다.

클로드의 장례식의 핵심은 오히려 "사랑"에 가까웠습니다. "마법 같은" 경험을 가져다주는 안정적이고 믿음직한 도구에 대한 찬사였습니다.

우리가 GPT-5에 대해 상상하는 장례식은 실망에 초점을 맞춘 듯합니다. 익숙하고 강력한 GPT-4o가 "죽어버린" 것처럼 느껴지고, 더 빠르지만 더 멍청한 대안으로 대체된 것 같습니다.

AI 모델의 품질은 순위와 기자 회견에서 보여준 인상적인 성과만으로 판단되어서는 안 됩니다. GPT-5는 수많은 차트를 깼다고 주장했지만, 이러한 성과는 한 달도 채 지나지 않아 새로운 모델이 더 나은 결과를 달성했다고 주장할 것으로 예상됩니다 .

OpenAI는 투자자들에게 자사의 스토리를 전달하기 위해 이러한 벤치마크가 필요하지만, 사용자에게 필요한 것은 벤치마크 그 이상입니다. 일상적인 사용 경험, 실질적인 문제를 해결하는 능력, 상호작용에서 안정적인 "IQ" 등이 포함됩니다.

알트만은 이전에 팟캐스트에서 " 불안하고 두렵다 "고 말했습니다. 그는 GPT가 너무 똑똑해질까 봐 걱정한 것이 아니라, 사용자들이 곧 사라질 40가지를 그리워하게 될까 봐 걱정했던 것 같습니다.

본 기사는 WeChat 공개 계정 "APPSO" 에서 발췌하였으며, 저자는 Discover Tomorrow's Products이고 36Kr.의 허가를 받아 게재되었습니다.

출처
면책조항: 상기 내용은 작자의 개인적인 의견입니다. 따라서 이는 Followin의 입장과 무관하며 Followin과 관련된 어떠한 투자 제안도 구성하지 않습니다.
라이크
즐겨찾기에 추가
코멘트