인공지능이 이미 70.9%의 경우에서 당신의 전문적인 업무 능력을 능가했을 수 있습니다: GPT-5.2에 대한 심층 평가.

avatar
36氪
12-12
이 기사는 기계로 번역되었습니다
원문 표시

오픈아이(OpenAI)는 이른 아침에 차세대 대형 모델인 GPT-5.2를 공식 출시했습니다.

이는 이전 세대 GPT-5.1이 출시된 지 불과 한 달 만에 나온 것으로, 인공지능이 인간의 업무를 지원하는 새로운 시대의 도래를 알리는 신호탄입니다.

공식 벤치마크 테스트에서 GPT-5.2는 44개 직종을 아우르는 전문 업무에서 70.9%의 승률을 달성하며, 처음으로 인간 산업 전문가의 전반적인 성능에 도달하거나 이를 능가했습니다 . 일반 기업 사용자의 하루 40~60분, 재시도에 소요되는 주당 10시간 이상을 절약해 주는 OpenAI는 AI를 단순한 "대화형 비서"에서 직접적인 경제적 가치를 창출할 수 있는 "전문 협업자"로 탈바꿈시키고 있습니다.

이전 버전들과 달리 GPT-5.2는 일반적인 대화 능력 향상에만 집중하는 것이 아니라, "전문 지식 기반 작업"에 특화되어 있습니다. 오픈아이얼은 공식 발표에서 이 시리즈가 "전문 지식 기반 작업을 위해 구축된, 현재까지 가장 강력한 모델 시리즈"라고 명시적으로 밝혔습니다.

01 전환점: "전문가"에서 "조수"로의 질적 변화

OpenAI가 공개한 데이터에 따르면 ChatGPT Enterprise 사용자는 평균적으로 하루에 40~60분의 업무 시간을 절약할 수 있으며, 헤비 사용자는 주당 10시간 이상을 절약한다고 합니다 . 이러한 데이터의 배경에는 AI의 역할이 "정보 제공자"에서 "가치 창출자"로 변화하고 있다는 점이 있습니다.

GDPval 벤치마크 테스트 결과는 더욱 획기적이었습니다. 미국 GDP에 가장 크게 기여하는 9개 산업 분야의 44개 직종을 대상으로 한 이 전문 직무 평가에서 GPT-5.2 Thinking은 70.9%의 적중률을 달성하며, 전반적인 성능이 인간 산업 전문가 수준에 도달하거나 이를 능가한 최초의 사례를 기록했습니다 .

이에 비해 이전 세대인 GPT-5는 이 테스트에서 단 38.8%의 승률을 기록했습니다.

GDPval 심사위원 중 한 명은 GPT-5.2의 결과물을 검토한 후 "이번 결과물은 품질 면에서 놀라운 도약입니다. 전문 팀을 보유한 회사에서 만든 것처럼 보이며, 레이아웃 디자인 또한 매우 훌륭합니다."라고 평했습니다.

더욱 놀라운 것은 효율성 비교 결과입니다. GPT-5.2는 이러한 전문 작업을 인간 전문가보다 11배 이상 빠르게 완료하면서도 비용은 전문가 비용의 1%도 채 되지 않습니다 . 이는 단순한 기술적 발전이 아니라 경제 모델의 혁명이기도 합니다.

02 삼분할: 정확하게 매칭된 전문가 매트릭스

다양한 직업 환경 대면 GPT-5.2는 최초로 "3가지 버전" 전략을 채택하여 다양한 요구 사항을 포괄하는 전문 매트릭스를 구성했습니다.

Instant 버전은 일상적인 사무 및 학습 시나리오를 겨냥한 "효율성 향상 엔진"으로 자리매김하고 있습니다. GPT-5.1의 자연스러운 대화 스타일을 유지하면서 정보 검색, 사용 설명서, 기술 문서 작성 및 번역 기능이 크게 향상되었습니다. 초기 테스트 참가자들은 특히 설명이 더욱 명확해졌고 핵심 정보를 처음부터 제시할 수 있다는 점을 높이 평가했습니다.

GPT-5.2 Thinking 버전은 매우 복잡한 작업을 위해 특별히 설계된 "지능형 허브"입니다. 코딩, 장문 문서 요약, 수학적 논리 도출, 프로젝트 계획 수립에 탁월한 성능을 발휘합니다. ChatGPT에서 GPT-5.2 Thinking은 이전 버전에는 없었던 스프레드시트 및 프레젠테이션을 직접 생성하는 기능과 같은 새로운 도구도 제공합니다.

프로 버전은 최고 수준의 싱크탱크 역할을 하며, 극도의 정확성과 신뢰성을 요구하는 까다로운 작업에 최적화되어 있습니다. 현재 과학 연구, 복잡한 수학 문제 해결, 최첨단 탐구 분야에서 가장 지능적이고 신뢰할 수 있는 선택입니다. 초기 테스트 결과, 프로 버전은 주요 오류 발생률이 낮고 프로그래밍과 같은 복잡한 분야에서 더 뛰어난 성능을 보여줍니다.

이처럼 정교하게 분업된 업무 방식은 OpenAI가 시장 수요를 더 깊이 이해하고 있음을 반영합니다. 즉, 모든 문제를 해결하는 단일 모델이 아니라, 다양한 시나리오에 가장 적합한 지능형 솔루션을 제공하는 데 중점을 두고 있다는 것입니다 .

03 다섯 가지 주요 도약: "전문가 수준" 역량 혁신에 대한 관점

GPT-5.2의 기능을 다섯 가지 차원으로 요약하면 명확한 "전문가 진화 로드맵"을 확인할 수 있습니다.

고급 오피스 애플리케이션 측면에서 GPT-5.2는 단순히 "텍스트 생성"을 넘어 "결과물 제작"으로 도약했습니다. 복잡한 스프레드시트와 프레젠테이션을 직접 생성, 분석 및 서식 지정할 수 있습니다. 투자 은행 신입 분석가를 대상으로 한 내부 스프레드시트 모델링 작업에서 GPT-5.2의 평균 점수는 GPT-5.1보다 9.3%포인트 높았습니다 .

나란히 비교해 보면 GPT-5.2는 복잡성과 서식 면에서 상당한 개선을 이룬 스프레드시트와 슬라이드를 생성하는 것으로 나타났습니다. 지분 구조표든 프로젝트 관리 시각화 차트든, 거의 전문가 수준의 결과물을 만들어냅니다 .

코드 숙련도 측면에서 GPT-5.2는 "코드 작성 지원"에서 "개발 주도"로 기능이 진화했음을 보여줍니다. 실제 소프트웨어 엔지니어링 능력을 엄격하게 평가하는 SWE-Bench Pro 테스트에서 GPT-5.2는 이전 버전의 50.8%보다 높은 55.6%의 점수를 기록하며 새로운 최고 기록을 세웠 습니다.

더욱 놀라운 점은 실용적인 기능 입니다. GPT-5.2는 프롬프트만으로 "파도 시뮬레이터", "연말 카드 제작기", "타자 연습 게임"과 같은 완전한 단일 페이지 애플리케이션을 생성할 수 있습니다. 윈드서프 CEO 제프 왕은 "GPT-5.2는 GPT-5 이후 에이전트 코딩 분야에서 가장 큰 도약을 의미합니다." 라고 언급했습니다.

한편, GPT-5.2의 오답률은 크게 감소했습니다 . 익명 처리된 ChatGPT 질의 데이터 세트에서 GPT-5.2 Thinking의 오답 빈도는 GPT-5.1 Thinking에 비해 38% 감소했습니다 .

긴 문맥 이해 측면에서 GPT-5.2는 OpenAI MRCRv2 테스트의 4-니들 MRCR 평가 변형(최대 256,000개 토큰)에서 처음으로 거의 100%에 가까운 정확도를 달성했습니다 . 이는 전문가들이 장문의 보고서, 계약서, 연구 논문과 같은 여러 문서로 구성된 프로젝트를 처리하는 데 GPT-5.2를 안심하고 사용할 수 있음을 의미합니다.

시각적 이해 능력의 획기적인 발전 덕분에 GPT-5.2는 단순히 "보는 것"을 넘어 진정으로 "이해하는" 단계로 나아갈 수 있었습니다. 그래프 추론 및 소프트웨어 인터페이스 이해 분야에서 GPT-5.2의 오류율은 GPT-5.1에 비해 약 절반으로 감소했습니다 .

과학 도표 관련 질문에 대한 정확도는 88.7% 에 달했고, GUI 스크린샷 이해 정확도는 86.3% 였습니다. 저화질 메인보드 이미지 대면 GPT-5.2는 주요 구성 요소를 정확하게 식별하고 위치를 표시할 수 있었지만, GPT-5.1은 일부 부품만 식별할 수 있었습니다.

GPT-5.2는 작업 스케줄링 및 도구 호출 기능의 완성도가 높아 진정한 의미의 "지능형 에이전트"로 자리매김했습니다. Tau2-bench 통신 테스트에서 98.7%라는 탁월한 점수를 기록하며 장시간에 걸쳐 여러 단계로 진행되는 작업에서 도구를 안정적으로 활용할 수 있음을 입증했습니다.

실제 상황에서 사용자가 항공편 지연, 연결편 놓침, 수하물 분실, 의료 좌석 요청과 같은 복잡한 문제를 제기할 경우, GPT-5.2는 재예약, 특별 지원 좌석 마련, 보상 처리 등 전체 워크플로를 조율하여 이전 버전보다 더욱 포괄적인 결과를 제공할 수 있습니다.

04. 사용성 및 전망: 생산성 향상의 단계적 구현

오늘부터 ChatGPT의 유료 사용자(Plus, Pro, Go, Business, Enterprise 플랜 모두 포함)에게 GPT-5.2 시리즈가 제공됩니다. 이 새로운 모델은 이제 API 플랫폼의 모든 개발자가 이용할 수 있습니다.

가격 전략은 향상된 기능을 반영합니다. GPT-5.2의 API 가격은 입력 토큰 백만 개당 1.75달러 , 출력 토큰 백만 개당 14달러로 GPT-5.1보다 인상되었습니다. 그러나 OpenAI는 토큰 효율성이 높아짐에 따라 여러 에이전트 평가에서 동일한 품질 수준을 달성하는 데 드는 전체 비용이 실제로는 더 낮아졌다고 강조합니다.

보안 측면에서 GPT-5.2는 보안 조치를 지속적으로 강화합니다. 특히 정신 건강 관련 대화에서 바람직하지 않은 응답이 크게 줄었습니다. 또한 OpenAI는 미성년자를 위한 콘텐츠 보호 기능을 자동으로 적용하기 위해 연령 예측 모델을 점진적으로 배포하고 있습니다.

오픈아이(OpenAI)가 창립 10주년에 GPT-5.2를 출시하기로 한 결정은 과거와 미래를 잇는 다리 역할을 한다는 점에서 중요한 상징적 의미를 지닙니다. GPT부터 GPT-3, ChatGPT, 그리고 GPT-5.2에 이르기까지, 오픈아이는 인공지능 기술 개발을 꾸준히 선도해 왔습니다.

GPT-5.2가 전 세계 수억 명의 사용자에게 점진적으로 보급됨에 따라, 시대의 분명한 변화가 나타나고 있습니다. 인공지능은 더 이상 단순히 질문에 답하거나 텍스트를 생성하는 도구가 아니라, 복잡한 요구 사항을 이해하고, 여러 단계를 거치는 프로세스를 조율하며, 전문적인 결과를 도출할 수 있는 지능형 협력자로 거듭나고 있습니다.

전문적인 업무의 본질이 재정의되고 있으며, 이러한 재정의의 핵심 엔진이 조용히 5.2 버전으로 업그레이드되었습니다.

이 글은 위챗 공식 계정 "First Voice" 의 글이며, 작성자는 자위(Jia Yue)이고, 36Kr의 허가를 받아 게재되었습니다.

출처
면책조항: 상기 내용은 작자의 개인적인 의견입니다. 따라서 이는 Followin의 입장과 무관하며 Followin과 관련된 어떠한 투자 제안도 구성하지 않습니다.
라이크
즐겨찾기에 추가
코멘트