오늘 GPT-5.4가 출시되었고, 친숙한 OpenAI가 돌아왔습니다.
GPT-5.4는 OpenAI의 추론 기능(GPT-5.2), 최상위 프로그래밍 기능(GPT-5.3-Codex), 그리고 컴퓨터의 기본 사용 기능을 하나의 버전으로 통합한 최첨단 모델입니다.
이번 릴리스는 매우 중요합니다. "네이티브 컴퓨터 작동"을 지원한다는 사실만으로도 이미 충분히 눈길을 끄는데, 여기에 최고 수준의 전문 지식 기능, 100만 개의 토큰을 저장할 수 있는 컨텍스트 창, 그리고 크게 향상된 도구 효율성이 더해져 AI를 활용하거나, AI와 협업하거나, AI 기반 시스템을 구축하려는 모든 사람에게 진정한 도약을 의미합니다.
GPT-5.4가 OpenClaw의 진입점을 가로채고 있는 걸까요?
이번 새 모델의 가장 큰 변화는 네이티브 컴퓨터 연산 기능을 갖추게 되었다는 점입니다. OpenAI는 GPT-5.4가 "네이티브 컴퓨터 연산 기능을 갖춘 최초의 범용 모델"이라고 밝혔습니다.
OSWorld 검증 컴퓨터 사용 벤치마크에서 정확도는 47.3%에서 75%로 향상되었으며, BrowseComp의 정확도는 65.8%에서 82.7%로 향상되었습니다.
이것은 단순히 "몇 가지 셸 명령어를 실행하는 것"에 그치는 것이 아닙니다. 진정한 의미는 데스크톱에 접근하고, 웹 페이지를 방문하고, 기본적으로 원래 사람만이 할 수 있었던 많은 작업을 컴퓨터에서 수행할 수 있다는 점에 있습니다. 이는 일반적으로 웹 버전의 ChatGPT로는 할 수 없는 작업들입니다.
특히 OpenClaw와 같은 제품은 최근 몇 달, 심지어 몇 주 만에 갑자기 엄청난 인기를 얻었는데, 이는 인공지능 모델을 사용하는 방식을 혁신적으로 변화시켰기 때문입니다. 이전에는 주로 웹 앱을 통해 모델과 상호작용했고, 로컬 컴퓨터에서 직접적인 작업을 하는 경우는 거의 없었습니다. 하지만 이제는 상황이 근본적으로 달라졌습니다.
OpenAI가 제공한 예시들을 통해 GPT-5.4가 브라우저 사용자 인터페이스 스크린샷 보기, 인터페이스 클릭, 이메일 전송, 캘린더 일정 예약 등 컴퓨터를 능숙하게 사용할 수 있음을 확인할 수 있습니다.
또 다른 새로운 실험적 기능인 "Playwright(대화형)"을 통해 Codex는 웹 및 Electron 애플리케이션의 실시간 시각적 디버깅을 수행하고, 애플리케이션을 구축하는 동안 직접 테스트할 수도 있습니다. 이 모든 것은 Codex의 네이티브 컴퓨터 운영 기능 덕분입니다.
OpenAI 연구원 SQ Mah는 이러한 현상이 주로 두 가지 핵심 기능, 즉 CUA(컴퓨터 사용)와 이미지 입력을 기반으로 고품질 웹사이트를 생성하는 능력에 의해 뒷받침된다고 밝혔습니다.
GPT-5.3 코덱스와 비교했을 때, GPT-5.4에서는 CUA를 사용할 때 작업을 수행하기 위해 완전히 새로운 환경을 실행할 필요가 없습니다. 3D 게임에서 CUA는 게임 인터페이스를 자동으로 클릭하고, 체스 말을 이동시키며, 실제 조작을 통해 규칙이 올바르게 적용되었는지까지 확인합니다.
웹사이트 생성 시나리오에서 모델은 이미지 생성 도구를 호출하여 이미지를 생성한 다음 CUA를 사용하여 작업 결과를 확인합니다. 생성된 이미지를 열고 이미지 내용을 확인하고, 웹사이트 페이지를 열어 살펴본 후 두 페이지를 나란히 비교하여 생성된 웹사이트가 입력 이미지와 최대한 유사한지 확인합니다.
SQ Mah는 또한 지속적인 CUA를 통해 모델이 자체 작업을 테스트한 일부 시나리오에서 토큰 사용량이 실제로 3분의 2까지 감소한 것을 발견했다고 강조했습니다.
사실 OpenAI는 작년 1월에 CUA를 출시했지만, 보안 및 정확성에 대한 우려 때문에 이 프로젝트는 진지하게 받아들여지지 않았습니다.
한때는 OpenAI가 이러한 접근 방식을 포기한 것인지 의문을 품는 사람들도 있었습니다. 특히 GPT-4o와 같은 프로젝트가 거의 모든 관심을 사로잡았던 시기에 CUA는 사실상 "사라졌습니다."
이 프로젝트를 포기한 건가요? 지금은 아무런 소식도 없네요. 저는 몇 달 전부터 미리 보기 버전으로 제공되는 Azure/OpenAI를 사용하고 있어요. 신청은 했는데 아직 승인을 받지는 못했습니다.
GPT-4o와 같은 프로젝트에 대한 엄청난 홍보에 비하면 CUA는 사실상 잊혀진 존재가 되었습니다. 게다가 아직 프리뷰 단계라 접근이 매우 제한적이고, 많은 사람들이 시도조차 해볼 수 없습니다. 하지만 저는 이러한 접근 방식이 실패했다고 생각하지 않습니다. "브라우저 우선" 솔루션이 안정성, 은밀성, 내장 보안 메커니즘 측면에서 진정으로 성숙해진다면 에이전트 워크플로에 있어 큰 도약을 의미할 수 있을 것입니다.
하지만 오늘 공개된 GPT-5.4를 보면 상황이 분명히 달라졌음을 알 수 있습니다. OpenAI는 이 기능을 다시 전면에 내세웠을 뿐만 아니라, GitHub에 새로운 CUA 샘플 앱들을 공개했습니다.
CUA는 ChatGPT 5.4가 컴퓨터를 직접 사용할 수 있도록 지원하며, 이는 OpenClaw의 접근 방식과 매우 유사합니다. 본질적으로 모두가 동일한 진입점을 놓고 경쟁하는 셈인데, 이는 AI가 더 이상 API나 채팅 창에 제한받지 않고 컴퓨터를 직접 사용할 수 있도록 합니다. 하지만 OpenClaw처럼 모델 외부에서 구축되는 컴퓨터 사용 프레임 워크와 달리, GPT-5.4는 컴퓨터 운영 기능을 모델에 기본적으로 통합하는 더욱 직접적인 방식을 취합니다.
이러한 모델들이 OpenClaw와 같은 오픈 소스 프로젝트를 "추월"하기 시작하면, 연간 수천만 달러, 수억 달러, 심지어 수십억 달러의 매출을 올리는 기업들도 OpenClaw보다 더 안전하고, 더 빠르며, 더 신뢰할 수 있는 자체 버전을 손쉽게 만들 수 있게 됩니다. 따라서 이는 에이전트형 AI 역량 측면에서 정말 흥미로운 단계입니다.
한편으로는 비용을 절감하고, 다른 한편으로는 환상을 없애는 것.
이번 업그레이드는 분명히 "개발자와 헤비 유저를 위한 것"이며, 주요 이유 중 하나는 GPT-5.4에 도구 검색 기능이 도입되었기 때문입니다. 이제 모델은 모든 도구의 전체 정의를 한 번에 컨텍스트에 담지 않고(이로 인해 요청당 수만 개의 추가 토큰이 소모될 수 있음), 간소화된 목록만 가져와 필요할 때 특정 도구의 정의를 검색합니다.
Scale의 MCP Atlas 벤치마크에서 36개의 MCP 서버를 활성화하고 250개의 작업을 테스트한 결과, 도구 검색 구성은 정확도를 저하시키지 않으면서 전체 토큰 사용량을 47% 줄였습니다. 대규모 에이전트 시스템을 구축하는 개발자에게 이는 거의 비용 절감과 응답 시간 단축에 해당합니다.
오류 발생 문제도 크게 줄어들었습니다. OpenAI에 따르면 GPT-5.4는 GPT-5.2보다 개별 사실 진술에서 오류를 범할 가능성이 낮아졌으며(오류 확률 33% 감소), 전체 응답 오류 확률도 18% 감소했습니다. 이는 정확한 결과를 필요로 하는 전문가 사용자에게 매우 유용한 개선 사항입니다.
한편, GPT-5.4는 Harvey의 BigLaw Bench에서 91%의 정확도를 달성했습니다.
그들의 프로그래밍 실력도 향상되었습니다.
GPT-5.4는 이제 OpenAI의 주요 프로그래밍 모델이 되었으며, 대부분의 작업에서 더 이상 ChatGPT와 Codex 사이에서 고민할 필요가 없습니다.
SWE-Bench Pro에서 GPT-5.3-Codex와 동등하거나 더 나은 성능을 보이며, 특히 낮은 추론 강도 설정에서 더 빠릅니다. 대화 상자에서 추가 선택 없이 바로 코딩을 시작할 수 있습니다.
Codex는 또한 모든 지원 모델에서 최대 1.5배의 속도 향상을 제공하는 고속 모드를 추가했습니다. OpenAI는 GPT-5.4가 복잡한 프런트엔드 작업에서 훨씬 강력해졌으며, 더욱 정교하고 시각적으로 매력적이며 기능적 정확성에 더욱 부합하는 결과물을 생성한다고 강조했습니다. 이는 이미 많은 개발자들의 피드백을 통해 확인되었습니다.
기능이 향상됨에 따라 가격도 상승했습니다.
API 문서에서 OpenAI는 GPT-5.4 Thinking의 모델명을 gpt-5.4로, GPT-5.4 Pro의 모델명을 gpt-5.4-pro로 명시하고 있습니다. 가격은 다음과 같습니다.
GPT-5.4:
입력: 100만 토큰당 2.50달러
출력: 토큰 100만 개당 15달러
GPT-5.4 프로:
입력: 100만 토큰당 30달러
출력: 토큰 100만 개당 180달러
전반적으로, 현재 시판 중인 다른 모델들과 비교했을 때, GPT-5.4는 아래 표에서 볼 수 있듯이 API 운영 비용이 상대적으로 높습니다.
또 다른 중요한 변화는 GPT-5.4에서 요청된 입력 토큰이 272,000개를 초과할 경우 수수료가 정상 가격의 두 배가 된다는 점입니다. 이는 이전 모델보다 더 광범위한 단서 컨텍스트를 지원한다는 것을 반영합니다.
Codex에서 기본 압축 제한은 272,000 토큰입니다. 더 높은 장기 컨텍스트 가격은 입력값이 272,000 토큰을 초과할 때만 발생합니다. 즉, 개발자는 힌트를 이 범위 내로 유지하는 한 추가 요금이 발생하지 않습니다. 더 긴 컨텍스트가 필요한 경우 압축 제한을 늘려서 처리할 수 있지만, 이러한 대규모 요청에만 더 높은 요금이 부과됩니다.
OpenAI 대변인은 또한 API의 최대 출력 길이는 이전 모델과 마찬가지로 128,000 토큰이라고 밝혔습니다.
GPT-5.4의 기본 가격이 더 높은 이유에 대해 OpenAI는 세 가지 주요 이유를 제시합니다.
프로그래밍, 컴퓨터 조작, 심층 연구, 고급 문서 작성 및 도구 사용을 포함한 복잡한 작업에서 성능이 크게 향상되었습니다.
오픈AI 기술 로드맵에서 도출된 일련의 연구 혁신;
추론 효율이 더 높고 동일한 작업을 완료하는 데 필요한 추론 토큰 수가 더 적습니다.
또한 가격 인상에도 불구하고 GPT-5.4는 동급의 많은 최첨단 모델보다 여전히 저렴하다고 강조했습니다.
참고 링크:
https://openai.com/zh-Hans-CN/index/computer-using-agent/
https://www.reddit.com/r/OpenAI/comments/1mwc03q/openai_computer_user_agent_cua/
https://venturebeat.com/technology/openai-launches-gpt-5-4-with-native-computer-use-mode-financial-plugins-for
이 글은 위챗 공식 계정 "InfoQ" 의 기사이며, Tina 님이 번역하고 36Kr의 허가를 받아 게재했습니다.





