울트라맨이 GPT-5.4를 출시하자 네티즌들은 "단순한 '안녕하세요' 인사 하나에 80달러나 든다니"라며 반응했다.

이 기사는 기계로 번역되었습니다
원문 표시

인공지능 도구를 열 때마다 아마도 잠시 생각하게 될 겁니다. "이 작업에는 어떤 모델을 사용해야 할까?" 코드를 작성하는 것과 정보를 검색하는 것은 별개의 문제이며, 인공지능의 도움을 받아 컴퓨터를 조작하려면 또 다른 창을 열어야 합니다.

오늘 이후로, 이러한 분열감은 마침내 해답을 찾았습니다.

방금 전 OpenAI는 프로그래밍, 추론, 컴퓨터 제어, 웹 검색 및 백만 토큰 컨텍스트를 단일 모델로 통합하면서도 이러한 기능 중 어느 하나도 희생하지 않은 GPT-5.4를 공식 출시했습니다.

OpenAI의 CEO인 샘 알트만은 X 플랫폼에 대한 짧은 트윗을 통해 지식 작업 강화, 웹 검색 개선, 네이티브 컴퓨터 제어, 수백만 개의 토큰 컨텍스트 지원, 응답 과정 중 언제든 개입할 수 있는 기능 등 다섯 가지 핵심 영역을 강조했습니다.

이 몇 마디는 지난 2년간 인공지능 적용에 있어 가장 두드러진 다섯 가지 문제점을 정확하게 짚어냅니다.

지식 노동: 10번 중 8번은 AI가 전문가를 능가합니다.

지식 처리 분야에서 GPT-5.4의 발전상을 이해하려면 먼저 GDPval 벤치마크의 설계 논리를 이해해야 합니다.

이 목록은 미국 GDP에 가장 큰 기여를 하는 9개 산업 분야의 44개 직종을 포괄합니다. 이 목록에 포함된 업무들은 투자 은행의 재무 모델 작성, 병원 응급실 근무표 작성, 영업팀을 위한 프레젠테이션 제작 등 직장에서 매일 이루어지는 실제 업무들입니다.

작업이 완료되면, 그 결과물은 업계의 실제 전문가들에게 제공되어 블라인드 테스트와 점수 매기기를 거쳐 AI 결과물이 인간 동료보다 몇 퍼센트나 더 나은지 확인합니다.

GPT-5.4의 점수는 83.0%로, 업계 전문가들이 10번의 비교 중 8번 이상에서 이 AI의 결과물이 인간 수준에 도달했거나 그 이상이라고 평가했음을 의미합니다. 이전 세대인 GPT-5.2의 점수는 70.9%로, 약 13%포인트의 차이가 있습니다.

이러한 발전은 스프레드시트 모델링에서 가장 두드러지게 나타납니다. GPT-5.4는 신입 투자 은행 분석가가 모델링 작업을 완료하는 것을 시뮬레이션했는데, 평균 점수는 87.3%였습니다. 이는 GPT-5.2의 68.4%와 GPT-5.3-Codex의 79.3%에 비해 약 20%포인트 높은 수치입니다.

Harvey의 BigLaw Bench 테스트 결과 또한 인상적이었으며, GPT-5.4 점수는 91%에 달했고, Mercor의 APEX-Agents 벤치마크에서도 1위를 차지했습니다.

정확도 또한 중요한 문제입니다. 오인식 문제는 인공지능이 전문적인 분야에 진출하는 데 있어 항상 가장 큰 걸림돌이 되어 왔으며, 오인식률이 1%라도 감소할 때마다 더 많은 상황에서 안전하게 활용될 수 있게 됩니다.

데이터에 따르면 GPT-5.2와 비교했을 때 GPT-5.4는 단일 문장에서 오류 발생 확률이 33% 낮고, 전체 응답에서 오류 발생 확률이 18% 낮습니다.

프로그래밍: 하나의 모델로 코드 작성 및 테스트까지 모두 해결 가능합니다.

GPT-5.4는 GPT-5.3-Codex의 프로그래밍 기능을 메인라인에 통합했습니다. 개발자 입장에서는 더 이상 코드를 작성하기 위한 별도의 모델을 만들 필요가 없으며, 프로그래밍 기능 자체에는 아무런 문제가 없습니다.

SWE-Bench Pro는 실제 소프트웨어 엔지니어링 작업을 테스트하도록 특별히 설계되었습니다. GPT-5.4에서 57.7%, GPT-5.3-Codex에서 56.8%, GPT-5.2에서 55.6%의 점수를 기록했습니다. 통합 후 프로그래밍 점수가 실제로 향상되었을 뿐만 아니라 컴퓨터 제어와 같은 범용 기능도 추가로 확보하여 뚜렷한 약점을 찾기가 거의 불가능합니다.

유명 AI 리뷰 블로거인 댄 시퍼는 직접 사용해본 후 "최근 OpenAI에서 본 계획 수립 기능 중 최고입니다. 코드 검토도 훌륭하고, 가격은 Opus의 절반 정도입니다."라고 평했습니다.

그는 두 가지 구체적인 측면을 지적했습니다. 첫째, 장기적인 과제의 성공에는 계획 수립 능력이 매우 중요한데, GPT-5.4는 과제 세분화와 지속적인 진행 과정에서 훨씬 더 체계적이라는 점입니다. 둘째, 클로드 오푸스(Claude Opus)에 비해 가격이 절반 수준입니다. 대규모 API 호출이 필요한 개발자에게는 이러한 가격 차이가 매우 두드러지게 나타날 것입니다.

Codex에서 /fast 모드를 활성화하면 GPT-5.4의 토큰 생성 속도를 최대 1.5배까지 높일 수 있어 코딩, 반복 작업 및 디버깅 중에 원활한 워크플로를 유지할 수 있습니다.

동시에 새롭게 도입된 실험적인 기능인 플레이라이트 인터랙티브는 GPT-5.4의 프로그래밍 경험을 한 단계 더 발전시킵니다.

GPT-5.4는 웹 또는 Electron 애플리케이션을 개발할 때 시각적 브라우저를 통해 실시간 디버깅을 가능하게 합니다. 이 모델은 코드를 작성하고 개발 중인 애플리케이션을 동시에 테스트할 수 있어 개발자와 테스터의 역할을 동시에 수행할 수 있습니다.

OpenAI는 훌륭한 사례를 선보였습니다. GPT-5.4는 단 하나의 간단한 프롬프트만으로 타일 기반 경로 배치 및 놀이기구 건설 시스템, AI 기반 방문객 내비게이션 및 대기열 행동, 그리고 자금 조달, 방문객 수, 만족도, 청결도라는 네 가지 지표에 걸쳐 실시간으로 동적으로 업데이트되는 종합 점수를 포함하는 완벽한 아이소메트릭 테마파크 시뮬레이션 게임을 생성했습니다.

Playwright Interactive는 경로 설정, 카메라 탐색, 방문객 반응 및 UI 지표의 정확성을 검증하기 위해 전체 과정에 걸쳐 여러 차례 자동화 테스트를 수행했습니다. 코드 작성부터 테스트 및 승인에 이르기까지 모델은 전체 프로세스를 자율적으로 완료했습니다.

블로거 앤젤은 GPT-5.4를 사용하여 마인크래프트 클론을 만들었습니다. 이 모델은 구축하는 데 약 24분이 걸렸고, 충돌 없이 원활하게 실행되었습니다. 그는 "마인크래프트는 사실상 해킹된 것 같다. 이제 새로운 테스트를 찾아야겠다."라고 트윗했습니다.

와튼 스쿨의 에단 몰릭 교수도 조기 사용 권한을 받았습니다. 그는 동일한 프롬프트를 사용하여 GPT-5.4 Pro가 피라네시에서 영감을 받은 3D 장면을 오류 없이 생성하도록 했고, "더 좋게 만들어라"라는 지시만 추가했습니다. 그런 다음 그 결과를 2년 전에 GPT-4가 생성한 버전과 나란히 놓고 비교했는데, 그 차이가 즉시 드러났습니다.

컴퓨터 제어 능력은 지금 당신보다 훨씬 뛰어납니다.

이는 GPT-5.4 릴리스에서 가장 주목할 만한 변화입니다. 이전에는 OpenAI의 컴퓨터 조작 기능이 별도의 모듈 로 분리되어 있었고, 모델의 언어 이해 및 코드 생성 기능과 명확하게 구분되어 있었습니다.

이전에는 두 시스템이 독립적으로 작동하여 정보를 주고받아야 했기 때문에 효율성이 떨어졌습니다. 이제 이러한 분리가 사라지면서 GPT-5.4는 컴퓨터 제어 시 모델 자체의 추론 능력을 활용하여 우회적인 접근 방식이 필요 없어졌습니다.

또한 이는 OpenAI가 일반 모델에 컴퓨터 사용 기능을 기본적으로 통합한 첫 번째 제품이며, 저는 이것이 향후 AI 에이전트에 대한 논의를 위한 새로운 출발점이 될 것이라고 생각합니다.

벤치마크 결과에 따르면 OSWorld 검증 벤치마크는 데스크톱 탐색 기능을 입증하여 사용자가 스크린샷과 마우스/키보드 상호 작용을 통해 실제 운영 체제 작업을 완료할 수 있음을 보여줍니다. GPT-5.4는 75.0%의 성공률을 달성했으며, 이는 인간 기준선의 72.4% 및 GPT-5.2의 47.3%보다 높은 수치입니다.

간단히 말해, 그것은 인간을 따라잡았을 뿐만 아니라, 능가했습니다.

스크린샷 모드만을 사용하여 브라우저 제어를 테스트하는 Online-Mind2Web 벤치마크에서 GPT-5.4는 92.8%의 성능을 달성했으며, 비교 대상인 ChatGPT Atlas는 에이전트 모드에서 70.9%의 성능을 달성했습니다.

실제 구축 사례가 이를 증명합니다. Mainstay는 약 3만 개의 재산세 포털에서 GPT-5.4를 사용하여 자동 양식 작성을 구현했으며, 첫 시도 성공률 95%, 세 번 시도 내 성공률 100%를 달성했습니다. 이는 기존 유사 모델의 성공률 73%~79%에 비해 크게 향상된 수치입니다. 세션 완료 속도는 약 3배 빨라졌고, 토큰 소모량은 약 70% 감소했습니다.

이는 시각 인지 능력의 향상과 불가분의 관계에 있습니다. 컴퓨터를 제어하는 ​​것은 궁극적으로 "명확하게 보는 것"에 달려 있습니다. 즉, 인터페이스에 무엇이 있는지, 버튼이 어디에 있는지, 클릭이 정확한지 명확하게 보는 것입니다.

GPT-5.4는 이 레이어에 대한 구체적인 개선 사항을 적용하여 최대 변 길이가 1024만 화소(6000픽셀)인 고화질 이미지 입력을 지원하는 새로운 이미지 입력 ​​모드를 도입했습니다. 또한 기존 표준보다 오리지널 고화질 모드의 상한값이 최대 변 길이가 256만 화소(2048픽셀)로 증가했습니다.

도구 사용 및 웹 검색: 지속가능성은 핵심 경쟁력입니다.

복잡한 AI 에이전트 시스템은 수십 개의 MCP 도구로 지원될 수 있습니다. 과거에는 도구 사용 여부와 관계없이 각 대화가 시작되기 전에 모든 도구 설명을 시스템에 입력하고 토큰을 먼저 소모하는 방식을 사용했습니다.

GPT-5.4는 다른 접근 방식을 취합니다. 먼저 모델에 간단한 도구 목록을 제공합니다(즉, 도구 검색 메커니즘을 도입했습니다). 도구가 실제로 필요할 때 해당 도구에 대한 자세한 설명을 가져옵니다. 한 번 사용된 도구는 직접 캐시되어 다음에 다시 가져올 필요가 없습니다.

36개의 MCP 서버를 모두 활성화한 상태에서 250개의 작업을 테스트한 결과, 도구 검색 모드를 사용하니 정확도는 그대로 유지하면서 총 토큰 소모량이 47% 감소했습니다. 정확도를 전혀 희생하지 않고도 비용을 거의 절반으로 줄일 수 있었습니다.

웹 검색에서 GPT-5.4는 BrowseComp 벤치마크에서 82.7%의 점수를 기록했는데, 이는 GPT-5.2의 65.8%보다 17%포인트 높은 수치입니다. 특히 프로 버전은 89.3%라는 경이적인 점수를 달성하며 업계 신기록을 세웠습니다. Zapier의 CEO는 GPT-5.4가 다른 모델들이 검색을 포기하는 지점에서도 계속해서 검색을 이어가는 점을 언급하며, Zapier가 테스트한 모델 중 가장 끈질긴 모델이라고 평가했습니다.

백만 토큰 컨텍스트: 아주 아주 아주 아주 아주 아주

GPT-5.4는 API에서 최대 100만 개의 토큰을 포함하는 컨텍스트 창을 지원합니다. 이는 프로젝트 전체에 관련된 모든 문서를 하나의 대화에 한 번에 담을 수 있음을 의미합니다.

하지만 테스트 결과에 따르면 128K~272K 범위가 가장 안정적이며 일상적인 사용에 적합합니다.

256K 이상에서는 정확도가 떨어지기 시작하므로 사용 전에 특정 작업에 대한 검증이 필요합니다. 512K에서 1M 범위에서는 정확도가 36.6%까지 떨어지는데, 이는 현재로서는 실험 단계에 머물러 있으며 높은 정확도가 요구되는 실제 작업에 직접 사용하기에는 적합하지 않습니다.

또 다른 실질적인 비용 문제는 272KB를 초과하는 요청은 사용량의 두 배로 계산된다는 점입니다. 즉, 지나치게 긴 컨텍스트를 포함한 요청을 보내면 일반 요청 두 개와 동일한 양의 할당량이 소모됩니다. 따라서 이러한 긴 컨텍스트가 정말 필요한지 신중하게 고려한 후에 요청을 보내는 것이 좋습니다.

ARC-AGI-2 시각적 추상 추론 벤치마크에서 GPT-5.4 Pro는 83.3%의 점수를 기록한 반면, 이전 세대인 GPT-5.2 Pro는 54.2%에 그쳤습니다.

예를 들어, FrontierMath Tier 4는 인간 수학자가 해결하는 데 몇 주가 걸릴 수 있는 50개의 연구 수준 수학 문제를 포함하고 있어 가장 어려운 수학 벤치마크 중 하나로 널리 알려져 있습니다. GPT-5.4 Pro는 이 벤치마크에서 38.0%의 점수를 기록했는데, 이는 이전 버전의 31.3%보다 높은 점수입니다.

이 수치의 기준은 다음과 같습니다. 1년 전 최고 결과는 o3의 2%였으며, 현재 최고의 오픈 소스 모델은 4.2%입니다.

블로거 디디는 2%에서 38%로의 상승이 "정말 놀랍다"고 트윗했습니다. 도구의 도움을 받아 '인류의 마지막 시험'은 GPT-5.4 Pro에서 58.7%, GPT-5.2 Pro에서 50.0%의 점수를 기록했는데, 이는 거의 9%포인트에 달하는 차이입니다.

구현 과정에서의 조정이지, 완료 후의 재작업이 아닙니다.

인공지능을 사용하여 장시간 작업을 처리해 본 사람이라면 누구나 이러한 경험을 해봤을 것입니다. 모델이 긴 구간을 실행한 후, 잘못된 방향으로 가고 있다는 것을 깨닫고 처음부터 다시 시작해야 하는 상황 말입니다. 그렇게 되면 모든 시간을 낭비하게 됩니다.

GPT-5.4 Thinking은 ChatGPT에 새로운 "중재" 기능을 도입했습니다. 복잡한 작업을 시작하기 전에 모델이 작업 계획 개요를 제시한 후 실행을 시작합니다. 사용자는 실행 중 언제든지 개입하여 방향을 조정할 수 있으며, 결과를 기다리거나 처음부터 다시 시작할 필요가 없습니다.

이 기능은 수정 과정을 "완료됨"에서 "진행 중"으로 변경하여 여러 차례의 협업이 필요한 작업에서 사용자 경험을 눈에 띄게 개선합니다. 이 기능은 현재 chatgpt.com 웹사이트와 안드로이드 앱에서 사용할 수 있으며, iOS 버전은 곧 출시될 예정입니다.

오늘부터 ChatGPT Plus, Team 및 Pro 사용자는 GPT-5.4를 이용할 수 있으며, 기본 사고 모델이었던 GPT-5.2 Thinking을 대체합니다.

GPT-5.2 Thinking은 올해 6월 5일 공식 서비스 종료일까지 계속 제공될 예정입니다. 엔터프라이즈 및 교육용 사용자는 관리자를 통해 백그라운드에서 조기 액세스 권한을 활성화할 수 있습니다. GPT-5.4 Pro는 Pro 및 엔터프라이즈 플랜에서만 이용 가능합니다.

표준 API는 입력의 경우 백만 토큰당 2.50달러, 캐시된 입력의 경우 백만 토큰당 0.25달러, 출력의 경우 백만 토큰당 15달러입니다. 프로 버전은 입력의 경우 백만 토큰당 30달러, 출력의 경우 백만 토큰당 180달러입니다. 배치 및 플렉스 처리는 표준 가격의 절반에 제공되며, 우선 처리는 표준 가격의 두 배입니다.

물론, 강력한 추론 능력에는 단점도 있습니다. Hyperbolic의 공동 창립자인 저스틴 진은 X 플랫폼에서 GPT-5.4 Pro 모델이 자신이 가장 "과도하게 생각하기" 좋아하는 모델이라고 불평했습니다 . 이 모델은 단 한 번의 "안녕하세요"라는 인사말만으로도 본격적인 추론을 시작하여 80달러를 허비했다는 것입니다.

이는 단지 한 가지 사례에 불과한 것이 아닙니다. 추론 모델의 특성상, 문제 자체에 필요하지 않더라도 입력값을 처리할 때 심층적인 사고 과정을 거치는 경향이 있습니다. 일상적이고 간단한 작업에는 표준 버전이 더 적합할 수 있으며, 프로 버전의 추론 기능은 정말 중요한 상황에 활용하는 것이 더 효율적입니다.

지난 2년간 AI 역량에 대한 논의는 주로 벤치마크 테스트 점수의 "지능"에 초점을 맞춰왔지만, GPT-5.4의 진정한 지능은 실제 업무 흐름에서 안정적으로 책임을 수행할 수 있는 능력을 의미합니다.

과거에는 AI가 텍스트만 출력할 수 있었고, 사람들이 직접 조작해야 했습니다. 하지만 이제 AI 모델은 브라우저를 열고, 양식을 작성하고, 버튼을 클릭하고, 결과를 기록하는 등 완전한 작업 과정을 스스로 완료할 수 있습니다.

인공지능은 질문에 답하는 데 능숙한 시스템에서 작업을 완료하는 데 능숙한 시스템으로 변모하고 있습니다. 그리고 이러한 변화는 대부분의 사람들이 예상했던 것보다 훨씬 빠르게 진행되고 있습니다.

참고 주소가 첨부되어 있습니다.

https://openai.com/index/introducing-gpt-5-4/

이 글은 미래의 제품을 발굴하는 APPSO가 작성한 위챗 공식 계정 "APPSO" 의 기사이며, 36Kr의 허가를 받아 게재되었습니다.

출처
면책조항: 상기 내용은 작자의 개인적인 의견입니다. 따라서 이는 Followin의 입장과 무관하며 Followin과 관련된 어떠한 투자 제안도 구성하지 않습니다.
라이크
67
즐겨찾기에 추가
17
코멘트