[서론] 만점에 가까운 점수와 차트 1위 성능을 자랑했던 GPT-5.2가 출시 직후 성능이 저하된 듯 보인다? 많은 네티즌들이 초기 출시 당시보다 현저히 약해진 것 같다고 지적하고 있다. 그러나 사전 테스트에 참여한 사람들은 여전히 매우 강력하며, GPT-6라는 명칭이 더 어울린다고 주장한다!
어젯밤, OpenAI는 GPT-5.2라는 깜짝 발표를 했습니다.
공식 벤치마크 테스트 결과에 따르면, 이 제품은 제미니 3 프로를 거의 완벽하게 능가합니다.
GPT-5.2는 스프레드시트 작성, 파워포인트 프레젠테이션 제작, 코드 작성 및 검토, 장문의 문서 분석 등 경제적으로 가치 있는 작업을 완료하는 데 탁월한 성능을 발휘합니다.
더욱이 GDPval과 같은 벤치마크 테스트에서 이 제품은 전문가와 동등하거나 심지어 70.9%의 확률로 더 나은 성능을 보인다고 주장됩니다.
이는 오픈AI가 인공 일반 지능(AGI) 목표를 변경하는 한이 있더라도 반드시 완성하겠다는 의지를 보인 결과물이라고 할 수 있으며, 제미니 3에 맞서야 하는 막중한 책임 또한 지고 있다.
그렇다면 GPT-5.2는 실제 사용 환경에서 어떤 느낌을 줄까요?
GPT-5.2 실제 환경 테스트: 실행 직후 지능이 저하되는가?
놀랍게도, GPT-5.2 테스트가 실패했다는 글이 X 커뮤니티에서 폭발적인 인기를 얻었습니다.
"마늘(garlic)이라는 단어에 R이 몇 개 있나요?"라고 물으면 "0개"라고 대답할 것입니다.
반면, 다른 모델들은 훨씬 더 안정적인 성능을 보였다.
궁극적으로 이는 LLM의 근본적인 문제, 즉 토큰화로 인해 글자 수를 셀 수 없다는 점입니다.
하지만 사고력 버전을 강제로 선택하도록 설정하면 GPT-5.2는 이 질문에 정확하게 답할 수 있습니다.
레딧에서도 많은 사용자들이 GPT-5.2가 처음 출시되었을 때 기능이 매우 많았던 것 같다고 지적했습니다.
그 결과, 몇 시간 후 그것은 갑자기 지능이 떨어졌다.
일부 사용자들은 GPT-5.2가 아침 8시 30분에 사용을 시작했을 때는 정상적으로 작동했지만, 커피 한 잔을 마신 후 갑자기 작동을 멈췄다고 보고했습니다.
새로운 모델이 공개될 때마다 몇 시간 만에 성능이 저하되는 것 같습니다. 오픈아이얼은 도대체 무슨 작전을 펼치고 있는 걸까요?
전문가의 증언에 따르면, 여전히 상당히 강력합니다.
하지만 이 사소한 사건은 대중들 사이에서 퍼지고 있는 긍정적인 평가에 영향을 미치지 않았습니다.
어젯밤 GPT-5.2가 공개되자 네티즌들은 충격을 받았다.
예를 들어, 어떤 사람들은 ARC-AGI 2의 이러한 도약이 정말 놀랍다고 말합니다. OpenAI는 정확히 어떻게 이것을 달성했을까요?
사람들은 처음에는 OpenAI가 구글에 뒤처졌다고 생각했지만, 그렇지 않은 것 같습니다!
오픈AI는 아직 공개하지 않은 놀라운 기능들을 많이 숨기고 있는 것 같습니다.
더욱이, 초강력 GPT-5.2 풀파워 버전을 경험한 사용자들은 만장일치로 극찬을 아끼지 않았습니다.
와튼 경영대학원 교수인 에단 몰릭은 GPT-5.2를 미리 사용해 볼 수 있는 행운을 누렸으며, 그 성능이 매우 인상적이었다고 말했다.
예를 들어, 다음과 같은 작업을 생각해 보세요. twigl-dot-app에서 실행될 수 있는 시각적으로 흥미로운 셰이더를 만들어, 거친 바다에 부분적으로 잠긴 끝없이 펼쳐진 네오고딕 양식의 탑 도시처럼 보이게 하세요.
많은 네티즌들은 해당 영상을 칭찬하며, GPT-5.2가 지시사항을 따랐을 뿐만 아니라 코드의 미적 요소와 구조 또한 매우 합리적이라고 평가했습니다.
그러자 교수는 GPT-5.2에게 연도별 사람들의 시험 점수 차트를 만들어 달라고 요청했습니다.
이 작업은 대량 의 정보를 검색하고 상호 참조해야 하며, 그 결과를 한 번에 유용하게 도출해야 하므로 매우 복잡합니다.
보시다시피, GPT-5.2의 성능은 정말 놀랍습니다.
이 Twigl 코드 예시는 GPT-5.2의 강력한 코딩 기능을 보여줍니다.
추론, 수학 및 프로그래밍 분야에서 획기적인 도약
매직파타이의 CEO는 GPT-5.2를 꽤 오랫동안 테스트해왔다고 밝혔습니다.
그는 해당 모델에 대해 "복잡한 추론, 수학, 프로그래밍 및 시뮬레이션 분야에서 큰 도약"이라고 평가했습니다.
이 예제에서는 단일 파일로 완전한 3D 그래픽 엔진을 구축하고, 대화형 컨트롤을 지원하며, 최대 4K 해상도를 구현합니다.
이 영상에서 그는 GPT-5.2를 사용하여 난이도가 높은 추론 문제도 해결했습니다.
일부에서는 그래픽 엔진이 GPT-5.2 라이브러리를 사용하여 개발되었는지에 대해 의문을 제기했습니다. 이에 대해 CEO는 모든 코드와 그래픽은 완전히 처음부터 새로 작성되었다고 밝혔습니다.
다시 말해, GPT-5.2의 발전은 점진적인 개선이 아니라 코딩 지원 기능의 완전한 패러다임 전환입니다.
네티즌들은 "진전 속도가 정말 어지럽다"라고 감탄했다.
CEO는 GPT-5.2에 대해 다음과 같이 평가했습니다. "GPT-5.2는 OpenAI가 출시한 최고의 에이전트 모델이며, 대량 도구를 문제없이 지속적으로 실행할 수 있고, 이전 버전보다 빠릅니다."
그는 그 기능을 테스트하기 위해 GPT-5.2, 5.1, 5를 동시에 사용할 수 있는 에이전트를 구축했습니다.
결과에 따르면 GPT-5.2는 도구를 호출할 때 별도의 프리앰블이 필요하지 않으며, 장시간 실행 중에도 데이터가 손실되지 않습니다.
심지어 누군가는 GPT-5.2에게 내면의 세계를 ASCII로 표현해 달라고 요청했고, 그 대답은 꽤 충격적이었다.
요약하자면, 대다수 사용자의 피드백에 따르면 GPT-5.2는 실제 작업을 안정적이고 명확하며 원활하게 처리할 수 있습니다.
사소한 오류에 취약했던 기존 모델과 달리, GPT-5.2는 작업에 대한 이해도가 높아 더욱 원활하게 작업을 완료합니다.
ARC Prize에 따르면 GPT-5.2 Pro(X-High)의 최신 SOTA(최첨단) 점수는 90.5%로, 이는 AI 효율성이 1년 만에 약 390배 향상되었음을 의미합니다.
이 모든 일의 배후에 있던 수수께끼의 중국인이 드디어 모습을 드러냈습니다.
과거와 마찬가지로 GPT-5.2 개발에 기여한 숨은 영웅들 중 상당수는 중국인입니다.
예를 들어, 오픈AI의 중국 연구원이자 베이징 대학 졸업생인 위바이(Yu Bai)는 GPT-5.2를 가장 먼저 발표한 사람 중 한 명입니다.
그는 베이징대학교에서 수학 학사 학위를 받았고 스탠퍼드대학교에서 통계학 박사 학위를 취득했습니다.
사후 교육을 담당했던 윤다이는 칭화대학교를 졸업하고 캘리포니아 대학교 어바인 캠퍼스에서 컴퓨터 과학 석사 학위를 받았습니다.
OpenAI의 또 다른 중국인 연구원인 류주신은 추론 모델의 사후 학습을 연구하고 있습니다.
그는 북방대학교에서 학사 학위를 받았고, 중앙대학교에서 석사 및 박사 학위를 취득했습니다.
애스턴 장은 일리노이 대학교 어바나-샴페인 캠퍼스의 박사 과정 학생이며 현재 OpenAI의 연구원으로 활동하고 있습니다.
그는 팀원들에게 감사를 표하며, 특히 GPT-5.2 Thinking이 여러 단계를 거치는 작업을 처리하는 능력을 강조했습니다.
요약하자면, OpenAI는 어젯밤 AI 경쟁에서 강력한 일격을 가했습니다.
구글은 다음에 무엇을 할까요?
참고 자료:
https://x.com/skirano/status/1999182295685644366
https://x.com/emollick/status/1999185085719887978
이 글은 위챗 공식 계정 "뉴 인텔리전스" 에서 Aeneas가 작성하고 36Kr의 허가를 받아 게시한 글입니다.



