GPT-5.2의 실제 테스트 결과: 가격 급등 능력이 약간 향상되었는데, 이것이 제미니에 대응할 수 있는 이유일까요?

36氪

12-12

이 기사는 기계로 번역되었습니다

원문 표시

제미니(Gemini)보다 뛰어난 성능을 발휘하도록 설계된 GPT 5.2가 오늘 아침 공식 출시되어 모든 사용자에게 배포되었습니다.

지난달에 ChatGPT Plus 구독을 취소하고 Gemini로 갈아탔는데, GPT-5.2 때문에 다시 ChatGPT Plus로 돌아가야 하나요?

네티즌들이 공유한 실제 사용자 경험담과 APPSO 직접 사용 후기를 읽어보면 답을 찾을 수 있을지도 모릅니다.

이번에는 드디어 표를 잘못 그리지 않았어.

GPT 5.2는 실제로 GPT-5.2 Instant, Thinking, Pro의 세 가지 모델을 업데이트합니다. Gemini 3.0 Pro에서 각 질문과 답변에 필요한 신중한 사고 과정에 익숙하신 분들은 GPT-5.2 Thinking/Pro를 사용하기 시작하면 ChatGPT의 사고 속도가 이전보다 느려지고 시간이 더 오래 걸린다는 것을 알게 되실 겁니다.

이는 소셜 미디어에서 GPT-5.2를 미리 사용해 본 대부분의 사용자들이 공유한 피드백이기도 합니다. 즉, GPT-5.2는 모든 면에서 5.1보다 개선되었으며, GPT-5.2 Pro는 완료하는 데 오랜 시간이 걸리는 전문적인 추론 작업에 매우 적합하지만, 결과가 나오는 데 걸리는 시간이 더 길어졌습니다.

예를 들어, 한 사용자는 "HLE 시험 점수 차트를 그려주세요"라는 프롬프트를 입력했을 때 GPT-5.2 Pro가 차트를 생성하는 데 무려 24분이 걸렸다고 공유했습니다.

이미지 출처: https://x.com/emollick/status/1999185755617300796/photo/1

다행히 모든 정보는 정확했고, 차트에서 가장 좋은 결과로도 Gemini 3.0 Pro가 표시되었습니다.

이는 GPT-5.2의 지식 만료일이 2025년 8월로 앞당겨진 데 따른 것이기도 합니다. GPT-5.1의 지식 만료일은 2024년 9월이었고, 지난달에 출시된 Gemini 3.0의 지식 만료일은 2025년 1월입니다.

GPT-5.2 Thinking을 사용하여 OpenAI의 모델 출시 이력 차트를 생성했을 때, 시간이 오래 걸리지 않았고 정보도 상당히 정확했습니다. 간단한 작업의 경우, Thinking 모델을 사용하는 데 걸리는 시간은 Pro 모델을 사용하는 데 걸리는 시간과 확연히 차이가 났습니다.

힌트: 시간 경과에 따른 OpenAI 모델 출시 현황을 차트 그래프로 생성해 보세요.

GPT 5.2는 "초고강도" 추론 능력과 최신 세계 지식, 그리고 다중 모달 이미지 이해 및 추론 기능을 결합하여 대형 모델 분야에서 빠르게 2위로 도약했습니다. GPT-5.2-High는 웹 개발(WebDev) 프로젝트에서 2위를 차지했으며 , GPT-5.2는 6위에 그쳤습니다. 이에 비해 Gemini 3.0 Pro는 3위를 기록했고, Claude는 여전히 1위를 유지하고 있습니다.

LMArena는 GPT-5.2를 사용하여 매우 높은 정확도로 일련의 3D 모델링 작업을 완료하는 테스트 영상을 공개했습니다. 그러나 일부 네티즌들은 "이게 아직도 2003년 수준이냐?"라는 댓글을 남겼습니다.

영상 출처: https://x.com/arena/status/1999189215603753445

three.js를 사용하여 구현한 이 3D 효과는 모델의 높은 수준의 멀티모달 이해 및 추론 능력뿐만 아니라 프로그래밍 개발 및 프로그램 설계의 최적화를 필요로 합니다. GPT-5.2는 이 0.1 업그레이드를 통해 충분히 그 가치를 발휘합니다.

현재 네티즌들이 공유하는 대량 테스트는 주로 완전한 3D 엔진 구축에 초점을 맞추고 있으며, GPT-5.2는 매우 뛰어난 성능을 보여주고 있습니다. 예를 들어, GPT-5.2 Thinking의 고난이도 추론 모드를 사용한 테스트에서는 단 한 페이지 파일로 인터랙티브 제어가 가능하고 4K 해상도로 내보낼 수 있는 3D 눈 덮인 얼음 왕국 모델을 구축했습니다.

https://x.com/skirano/status/1999182295685644366

GPT-5.2 Pro를 사용하여 생성된 3D 형태의 격렬한 고딕 양식 도시 건물도 있습니다.

팁: twigl-dot-app에서 실행할 수 있는 시각적으로 흥미로운 셰이더를 만들어 보세요. 마치 폭풍우가 몰아치는 바다에 부분적으로 잠긴 네오고딕 양식의 탑들이 끝없이 펼쳐진 도시처럼 보이게 하세요. | 출처: https://x.com/emollick/status/1999185085719887978?s=20

3D 이해 및 추론 능력과 관련하여, 저희는 Gemini 3.0 Pro 출시 이후 Ian Goodfellow가 사용했던 프롬프트를 활용했습니다. 이 프롬프트는 이미지를 업로드한 다음 모델에게 해당 이미지를 기반으로 아름다운 복셀 아트 Three.js 단일 페이지 애플리케이션 장면을 생성하도록 지시하는 방식입니다.

ChatGPT가 캔버스 내에서 코드를 생성해주지 않았기 때문에, 대화 상자에 생성된 코드를 복사해서 오른쪽 이미지처럼 HTML 보기에서 열었습니다.

차이점은 꽤 분명합니다. ChatGPT도 업로드된 이미지의 내용(분홍색 책, 녹색 들판, 회색으로 가라앉는 부분, 흰색 물)을 읽어냈지만, 생성한 3D 애니메이션은 Gemini 3.0 Pro에 비해 다소 조악했습니다.

울트라맨이 "적색 경보"를 발령한 것은 제미니의 진정한 역량을 보여주는 것이라고밖에 말할 수 없네요.

프로그래밍 실력을 테스트할 때 빼놓을 수 없는 부분이 바로 육각형 공을 이용한 물리 시뮬레이션입니다. 한 블로거는 여기에 완전히 빛을 발하는 빨간색 3D 공을 사용하여 난이도를 높였습니다. 그 효과는 매우 멋져 보이며, 많은 네티즌들이 어떻게 구현했는지 궁금해하고 있습니다. 하지만 일부에서는 이 공들이 중력의 영향을 받지 않는 것처럼 보인다고 지적하기도 했습니다.

그러자 일부 네티즌들이 이것은 우주를 시뮬레이션하는 것이라고 댓글을 달았습니다.

영상 출처: https://x.com/flavioAd/status/1999183432203567339

SVG 코드 테스트와 자전거를 탄 펠리컨 그림도 있습니다.

이미지 출처: https://arena.jit.dev/

일부 네티즌들은 GPT-5.2를 이용해 화재 속도, 면적, 범위 등을 조절할 수 있는 산불 시뮬레이터를 만들었다고 공유하기도 했습니다.

이미지 출처: https://x.com/1littlecoder/status/1999191170581434557?s=20

우리는 행성 신호에 대한 웹페이지를 만들었는데, 레이아웃은 이 산불 시각화 웹페이지와 거의 동일합니다. 유일한 차이점은 왼쪽에 표시되는 콘텐츠가 흩어진 별에서 천체로 변경되었다는 점입니다.

팁: 지상 수신기로 신호를 전송하는 위성 시스템의 대화형 HTML, CSS 및 JavaScript 시뮬레이션을 만드세요. 시뮬레이션은 지구 궤도를 도는 위성이 주기적으로 신호를 전송하고, 이 신호가 여러 수신기에 수신되는 모습을 보여줘야 합니다.

저희는 제미니 3로 만든 즉석 카메라를 사용하여 GPT-5.2를 테스트했습니다. 동일한 명령어를 입력하여 레트로 즉석 카메라 스타일의 웹 애플리케이션을 개발하도록 요청했습니다.

과제: 레트로 스타일의 스큐어모픽 단일 페이지 카메라 앱을 개발하세요. 페이지 배경은 코르크보드 또는 어두운 나무결 무늬로 디자인해야 합니다. CSS 또는 SVG로만 구현된 스큐어모픽 즉석 카메라 모델이 왼쪽 하단에 고정되어 있어야 하며, 렌즈 영역에는 사용자의 카메라 화면이 실시간으로 표시되어야 합니다. 인터랙션 로직 측면에서, 사용자가 셔터 버튼을 클릭하면 셔터 소리가 재생되고 흰색 테두리가 있는 사진 용지가 카메라 상단에서 천천히 나타나야 합니다. CSS 필터를 사용하여 나타나는 사진은 처음에는 매우 흐릿한 흑백 이미지로 표시되다가 5초 이내에 선명한 컬러 이미지로 부드럽게 전환되도록 해야 합니다. 마지막으로, 촬영된 모든 사진은 드래그하여 페이지 어디에든 자유롭게 배치할 수 있어야 하며, 사진은 약간의 회전 각도와 그림자 효과를 가져야 합니다. 사진을 클릭하면 해당 사진이 페이지 상단으로 이동하여 사실적인 자유형 사진 콜라주 벽을 만들 수 있어야 합니다.

다소 놀랍게도 ChatGPT는 한 번에 즉석 사진을 만들 수도 있습니다.

이전에 Gemini 3.0 Pro를 테스트했을 때 가장 강력한 기능은 프로그래밍 기능과 최소한의 입력만으로 작동한다는 점이었습니다. 스크린샷이나 비디오를 제공하고 복제하라고 지시하기만 하면 Gemini가 그대로 수행했습니다.

이번에는 동영상도 함께 제공하고, 이 고대 시를 생성하는 웹페이지를 재현해 보라고 요청했습니다.

https://chatgpt.com/canvas/shared/693b6d1b8fa881919c6298a4aed05581

제가 업로드한 영상의 색 구성표를 전혀 인식하지 못했던 GPT-5.1과 비교하면, 이번에는 뭔가 학습한 것 같습니다. 하지만 제미니(Gemini)에서 생성한 웹페이지는 API를 통해 AI 기능을 직접 통합할 수 있기 때문에, ChatGPT는 아직 이러한 웹페이지에 AI를 통합하지 않았습니다. 따라서 여기에 있는 시는 이미 작성된 몇 편에 불과합니다.

일반적인 프로그래밍 능력 테스트나 단순히 단일 페이지 HTML 파일을 생성하는 것 외에도, 일부 사용자는 파이썬 코드를 작성하는 데에도 이 도구를 사용합니다.

사용자가 입력한 제안은 "차량이 무작위 속도로 진입하는 일방통행 도로에서 신호등이 어떻게 작동하는지 시각화하는 파이썬 코드를 작성하세요."였습니다.

그는 GPT 5.2 Extended Thinking과 Claude Opus 4.5를 모두 테스트했고, 결과는 명확했습니다. 어떤 프로그래밍 모델이 최고인지 묻는 질문을 자주 받는데, Claude가 개발자들 사이에서 그토록 인기 있는 데에는 분명한 이유가 있습니다.

아래 이미지는 GPT-5.2를 보여줍니다. 출처: https://x.com/diegocabezas01/status/1999228052379754508

게다가 이전 클로드 모델의 가장 큰 단점은 높은 가격이었습니다. 클로드 오푸스 4.5는 입력 토큰 백만 개당 5달러, 출력 토큰 백만 개당 25달러였습니다. 이제 GPT-5.2의 가격도 그에 못지않게 높아져 GPT-5.1보다 약 40% 더 비싸졌습니다. GPT-5.2 Pro는 입력 토큰당 21달러, 출력 토큰당 168달러입니다.

OpenAI는 공식 출시 블로그에서 GPT-5.2가 이미지 처리 기능도 향상되었다고 언급했습니다.

GPT-5.2 Thinking은 현재까지 우리가 개발한 가장 강력한 시각 모델로, 그래프 추론 및 소프트웨어 인터페이스 이해에서 오류율을 약 절반으로 줄였습니다.

또한 AI를 사용하여 흐릿하게 보이는 마더보드에 상자 태그 추가하는 예시를 보여줍니다. GPT-5.1과 비교했을 때 GPT-5.2는 오류가 발생하기도 하지만 더 많은 영역을 태그.

그렇다면 나노 바나나 프로는 어떨까요? 일부 사용자는 나노 바나나 프로를 사용하여 이미지에서 주석을 제거한 다음 새로운 대상 위치 상자를 추가하도록 했습니다. 어떤 방법이 더 좋다고 생각하시나요?

왼쪽부터: GPT-5.1, GPT-5.2, 나노 바나나 프로 | 이미지 출처: https://x.com/bcaine/status/1999212747213656072

제 생각에는 ChatGPT가 다른 프로그램들이 뛰어난 분야에서 스스로를 망신시키고 있는 것 같습니다. GPT-5.2에 더 많은 어노테이션 정보가 포함되었음에도 불구하고, Nano Banana는 이미지 관련 작업에서 여전히 압도적인 선두를 달리고 있으며, 그럼에도 불구하고 많은 바운딩 박스가 정확하게 위치 지정되지 않고 있습니다.

프로그래밍 및 이미지 처리 기능은 이전 세대인 GPT-5.1에 비해 크게 향상되었습니다. ChatGPT를 오랫동안 사용해 오셨다면 업그레이드 후 차이를 바로 느끼실 수 있을 것입니다. 하지만 다른 모델들과 비교했을 때, 프로그래밍 및 이미지 처리 성능 면에서는 여전히 나노 바나나가 처음 출시되었을 때만큼 압도적인 수준에는 미치지 못합니다.

미적 웹 디자인과 관련하여 일부 네티즌들이 GPT-5.2를 사용하여 제작한 프런트엔드 웹페이지를 공유했습니다. 이번에도 프런트엔드 프로그래머들이 다시 한번 곤경에 처하게 될지 지켜보겠습니다.

이미지 출처: https://x.com/secondfret/status/1999235822034547011

이전에는 어디에나 있던 보라색 그라데이션과 비교하면 GPT-5.2의 디자인 수준은 확실히 향상되었습니다. 하지만 블로거 본인의 말처럼 GPT-5.2는 화면에 격자 무늬를 겹겹이 쌓아 올리는 것을 특히 좋아하는 것 같습니다.

설계 능력에 관한 특별 목록도 있습니다. GPT-5.2는 이전 10위권 밖이었던 GPT-5.1에서 3위로 도약하며 큰 발전을 이루었습니다. 하지만 최고 점수는 여전히 Gemini 3.0 Pro가 차지하고 있습니다.

이미지 출처: https://www.designarena.ai/leaderboard

저희는 GPT-5.2에게 AI 회사의 홈페이지를 위한 "고급스러운" 웹사이트를 만들도록 몇 가지 요구 사항을 제시했습니다. 결과는 어땠을까요? GPT-5.2는 상자를 사용하는 것을 정말 좋아했고, 마침 저는 보라색 그라데이션을 다시 발견했습니다.

팁: 당신은 세계 최첨단 프론트엔드 디자인 및 개발 분야에서 최고의 0.1% 디자이너이자 개발자입니다. AI 회사를 위해 업로드된 이미지에 {WebGL + ThreeJs}를 사용하여 {디더링 + 셰이더} 효과를 적용한 완벽한 랜딩 페이지를 제작해야 합니다. - 개발보다는 디자인에 집중하세요. 필요한 모든 파일과 라이브러리(Three.js, WebGL, GSAP, 기타 3D 개발 관련 애니메이션 라이브러리)를 가져오세요.

마지막으로, 글쓰기와 관련해서, 고급 사용자들의 피드백에 따르면 GPT-5.2는 장편 소설을 완성할 수 있는 능력을 갖추기 시작했다고 합니다.

예를 들어, ChatGPT에게 50개의 줄거리 아이디어를 생성해달라고 요청하면 다른 모델들처럼 일부만 생성하는 것이 아니라 모든 아이디어를 완성합니다. 또한 200페이지 분량의 책을 작성해달라고 요청하면 단순히 불가능하다고 말하는 대신, 실제로 시도하여 책의 전체 구조를 구성할 뿐만 아니라 PDF 파일까지 생성합니다.

네티즌들은 책의 페이지가 얇고 분량이 짧다는 점은 인정하면서도, 한 번에 출판 가능한 소설을 쓰는 것은 현재로서는 불가능하지만, 50개의 아이디어로 200페이지 분량의 책을 쓰기 시작했다는 것 자체가 충분히 깊이 있는 사고력을 보여주는 것이라고 평가했다.

GPT-5.2의 가장 놀라운 점은 지시를 매우 잘 따른다는 것입니다. 단순히 제가 시키는 대로 하는 것이 아니라, 제가 설명한 전체 작업을 실제로 완료합니다.

GPT-5.2는 이제 모든 사용자에게 점진적으로 배포될 예정입니다. 직접 사용해 보신 경험은 어떠신가요?

GPT-5.2로 업그레이드되었지만, 제미니에서 갈아탈 만큼 매력적이지는 않았습니다. 여러 순위표에서 상위권을 차지하고 자체 테스트와 공개 테스트 모두에서 좋은 결과를 보여주긴 했지만, 실제 사용 경험은 실망스러웠습니다. 3D 프로그램 생성 부분에서는 코드 오류가 빈번했고, 전반적인 디자인과 미적 감각도 가격 대비 크게 개선되지 않았습니다.

네티즌들의 날카로운 댓글

제미니 역시 멈추지 않고 울트라맨을 계속 압박하고 있습니다. 오늘 아침 일찍 새로운 모델은 공개되지 않았지만, API를 통해 접근 가능한 재설계된 제미니 딥 리서치가 출시되었으며, 향후 제미니, 구글 검색, NotebookLM에 적용될 예정입니다.

새로운 Gemini Deep Research Agent는 Human Last Exam(HLE)에서 최근 출시된 GPT-5.2 Thinking(45.5% 점수)을 능가하는 46.4%의 점수를 기록했으며(최고 점수는 GPT-5.2 Pro의 50.0%), Google 자체 DeepSearchQA 및 BrowseComp 테스트에서도 좋은 결과를 얻었습니다.

울트라맨의 적색경보는 당분간 더 지속될 것 같습니다.

이 글은 위챗 공식 계정 "APPSO" 에서 Discover Tomorrow's Products가 작성하고 36Kr의 허가를 받아 게시한 글입니다.

출처

면책조항: 상기 내용은 작자의 개인적인 의견입니다. 따라서 이는 Followin의 입장과 무관하며 Followin과 관련된 어떠한 투자 제안도 구성하지 않습니다.

라이크

즐겨찾기에 추가

코멘트