GPT-5.2는 DeepSeek보다 400배나 비싼 가격을 책정하다니, 제정신이 아닌 걸까요?

36氪

12-15

이 기사는 기계로 번역되었습니다

원문 표시

이 제품은 DeepSeek보다 400배, Google의 Gemini 3 Pro보다 거의 10배 더 비쌉니다.

OpenAI가 새로 출시한 GPT-5.2의 정확한 레벨은 어느 정도인가요?

간단히 말해서, 이 인공지능은 직장인들에게 가장 적합한 인공지능일지도 모릅니다. 왜냐하면 이 인공지능이 인간 보조자를 넘어 전문가로 거듭나는 변혁을 이끌어낼 가능성이 높기 때문입니다.

첫째, 전문 지식 측면에서 GPT-5.2는 화면으로 영상을 시청하는 업계 전문가보다 더 나은 성능을 보일 수 있다고 70% 확신합니다.

벤치마크 점수만 놓고 보면 GPT-5.2가 모든 면에서 Gemini 3 Pro보다 약간 더 우수한 성능을 보입니다.

물론, 그 차이는 미미했고, OpenAI가 Gemini와의 경쟁에서 점수를 높이려고 했을 가능성도 있습니다.

하지만 이번에 OpenAI가 가장 중요하게 생각하는 것은 사실 최종 GDPval 테스트 결과입니다.

이는 인공지능이 실제로 근로자들의 업무 수행을 도울 수 있는지 여부를 측정하기 위해 올해 9월 25일 에 제안된 완전히 새로운 테스트 방법입니다.

그래서 그들은 9개 분야와 44개 산업 분야의 전문가들을 초청하여 그들의 업무 환경을 바탕으로 여러 질문을 만들어 달라고 요청했습니다.

그럼 인공지능이 이 전문가들의 일을 대신할 수 있는지 한번 살펴보죠.

그 결과, 최신 GPT-5.2는 작업의 70%에서 인간과 동등하거나 심지어 능가하는 성능을 보여줍니다.

저희는 또한 GPT-5.2를 사용하여 인터넷에 공개된 모든 AI 기업 모델에 대한 통계를 수집하는 등 이 새로운 모델을 직접 체험해 보는 짧은 경험을 했습니다.

그런 다음, 이러한 모델들이 다양한 순위표에서 생성한 점수를 합산하고, 마지막으로 이 점수들을 월별로 집계합니다.

GPT-5.2는 14분간의 심사숙고 끝에 데이터 수집, 통계 분석 및 표 생성 작업을 성공적으로 완료했습니다.

완성도는 상당히 훌륭합니다.

또한 GPT-5.2는 일부 복잡한 표 작업도 완료할 수 있으며, 생성하는 표는 이전 버전보다 훨씬 미적으로 보기 좋습니다.

게다가, 다양한 작업에 대한 테스트 지표에서 약 9%의 향상이 있었습니다.

GPT-5.2는 코딩 성능에서도 상당한 개선을 보였습니다.

환각을 경험할 확률이 이전보다 38% 감소했습니다.

목표는 이를 사용하는 모든 사람에게 더 큰 안심을 주는 것입니다.

간단한 테스트를 진행했는데, 뛰어난 성능의 제미니 때문인지 GPT-5.2는 다소 평범하게 느껴졌습니다.

에임랩(조준 연습용 간단한 게임)을 실행하도록 하세요.

실제로 해당 프로그램을 작성할 수 있으며, 실행은 물론 목표 크기나 게임 시간과 같은 기본 매개변수도 조정할 수 있습니다.

이것들 자체에는 문제가 없지만, 너무 틀에 박힌 느낌이에요.

미적인 측면에서 보면 지난달 출시된 제미니 3에 비해 다소 뒤처지는 느낌이었습니다.

같은 문장으로 만들어진 똑같은 게임인데, 제미니는 벌써 다양한 최신 색상 조합을 고려하기 시작했지만, GPT는 여전히 밋밋한 흰색 벽을 칠하고 텅 빈 집을 짓고 있는 중입니다.

물론, 제가 GPT가 어떤 형태를 취해야 하는지 명확히 지정하지 않았을 가능성도 있습니다.

GPT-5.2는 다양한 작업 능력 향상 외에도 매우 흥미로운 변화를 하나 더 가지고 있습니다.

인간의 말을 이해하는 능력이 향상되었습니다.

테스트 과정에서 GPT에게 50개의 아이디어를 작성하라고 요청했을 때, 이전 모델들처럼 10개 정도 작성한 후 게을러지기 시작하는 것이 아니라, 진지하게 50개의 아이디어를 모두 작성한다는 사실이 발견되었습니다.

또한 OpenAI는 문맥 처리 능력도 향상시켰습니다. 핀 삽입 실험에서 텍스트 길이가 256KB에 달했을 때도 성공률은 거의 100%에 가까웠습니다.

이는 마치 그가 수십만 단어에 달하는 고전 소설에서 당신이 몰래 내용을 추가했거나 저를 모욕한 부분을 정확히 짚어낼 수 있는 것과 같습니다.

이는 코드를 작성하고, 학술 연구를 수행하고, 문서를 요약하고 정리하는 직장인과 연구원들에게 또 다른 큰 호재입니다.

뛰어난 종이 강도에도 불구하고, 몇몇 부분에서는 여전히 아쉬운 점이 있었다.

예를 들어, 공식 팀이 선보인 이미지 인식 사례에서 Gemini 3 Pro의 세밀도가 GPT 5.2를 완전히 능가하는 것으로 나타났습니다.

일부 사람들은 신형 모델이 출시되면서 구형 버전이 더욱 지능이 떨어질 것이라고 불평하고 있습니다.

이건 고전 명작 애니메이션이에요.

결론적으로, GPT-5.2의 출시로 우리는 하나의 추세를 발견하게 됩니다.

즉, 미래에는 최고 모델들 간의 차이가 더욱 뚜렷해질 수 있으며, 각 모델은 특정 과학적 접근 방식에 약간씩 더 치우칠 수 있습니다.

예를 들어, 제미니는 멀티모달 영역에서 훨씬 앞서 있을 수 있고, GPT는 논리적 추론 및 생산성에서 여전히 동종 알고리즘보다 앞서 있으며, 클로드는 코딩 능력 및 글쓰기에서 큰 차이로 선두를 유지하고 있습니다.

궁극적으로, 인공 일반 지능(AGI)을 달성하는 방법에 대한 주요 기업들 간의 차이점이 분명해졌습니다. 구글은 다중 모드 방식으로 세상을 인식하는 것이 미래라고 믿는 반면, 오픈AI는 극단적인 논리적 추론과 생산성 향상을 중시하며, 앤스로픽은 고차원적인 의미 이해와 정렬이 AGI의 핵심이라고 생각합니다.

현재 AI들이 번갈아가며 1위 자리를 차지하는 상황이 계속되고 있는데, 다음 차례는 Anthropic이 될 것으로 예상됩니다.

그런데 여러분께 다시 한번 묻고 싶은 게 있어요. 약속했던 울트라맨 성인 모드는 언제 출시되는 건가요?

이 글은 장장(Jiang Jiang)과 자오치(Zao Qi)가 작성한 위챗 공식 계정 "Cha Ping X.PIN" 의 글이며, 36Kr의 허가를 받아 게재되었습니다.

출처

면책조항: 상기 내용은 작자의 개인적인 의견입니다. 따라서 이는 Followin의 입장과 무관하며 Followin과 관련된 어떠한 투자 제안도 구성하지 않습니다.

라이크

즐겨찾기에 추가

코멘트