"에이전트 기반" 빅 모델, GPT-5.4가 드디어 등장했나요?

이 기사는 기계로 번역되었습니다

원문 표시

소문이 퍼진 지 불과 이틀 만인 3월 5일(현지 시간), OpenAI는 GPT-5.4를 공식 출시했습니다. 이번 모델 업데이트는 현재 가장 주목받는 분야인 AI 에이전트에 초점을 맞추고 있습니다.

GPT-5.4 이전에는 대규모 모델의 기능적 한계를 한 문장으로 요약할 수 있었습니다. 즉, "어떻게 해야 하는지"는 알려줄 수 있지만, 스스로는 그 일을 해낼 수 없다는 것이었습니다.

경쟁사 분석을 요청하면 장문의 보고서를 제공하고, 엑셀 스프레드시트 정리를 요청하면 실행할 파이썬 코드를 작성해 주며, 항공편 예약을 요청하면 어떤 웹사이트에 접속해서 어떤 버튼을 클릭해야 하는지 단계별로 알려줍니다.

가운데 벽은 "컴퓨터 작업실"이라고 되어 있습니다 .

GPT-5.4는 OpenAI에서 개발한 최초의 범용 모델로, 이러한 장벽을 허물었습니다.

GPT-5.4의 이전 모델 대비 개선 사항 | 이미지 출처: OpenAI

이 모델은 스크린샷을 찍어 화면 내용을 인식하고, 마우스 및 키보드 명령을 내리고, 여러 애플리케이션에 걸쳐 다단계 워크플로를 실행할 수 있습니다. 오픈아이얼(OpenAI)은 이를 "전문가 작업을 위한 현재까지 가장 강력하고 효율적인 최첨단 모델 "이라고 설명합니다.

좀 더 기술적인 측면에서 보면, GPT-5.4는 최대 100만 개의 토큰을 지원하는 컨텍스트 창을 가지고 있으며, Playwright와 같은 라이브러리를 호출하여 브라우저와 데스크톱 애플리케이션을 직접 제어할 수 있습니다.

이는 더 이상 "과제에 대한 대화"를 다루는 것이 아니라 "과제 자체"를 다룬다는 것을 의미합니다.

01 OpenAI의 기반

지난 몇 달 동안 OpenAI의 행보를 지켜보셨다면, GPT-5.4가 갑자기 등장한 제품이 아니라 명확한 전략적 방향의 최신 움직임이라는 것을 알게 되실 겁니다.

불과 2주 전, OpenAI는 GPT-5.3-Codex를 출시하여 Codex를 "코드를 작성할 수 있는 에이전트"에서 "개발자가 컴퓨터에서 할 수 있는 거의 모든 작업을 수행할 수 있는 에이전트"로 업그레이드했으며, SWE-Bench Pro와 Terminal-Bench에서 새로운 업계 벤치마크를 세웠습니다.

이와 동시에 OpenAI는 기업용 플랫폼인 "프론티어"를 출시했으며, HP, 인튜이트, 우버가 이미 초기 사용자로 참여하고 있습니다.

GPT-5.4는 양식 완성 기능에서 5.2보다 훨씬 뛰어납니다 | 이미지 출처: OpenAI

앞서 3월 2일, OpenAI와 AWS는 기존 38억 달러 규모의 파트너십을 8년간 1,000억 달러 이상으로 확대했으며, AWS는 OpenAI Frontier 플랫폼의 독점적인 타사 클라우드 제공업체가 되었습니다. 이러한 투자의 규모 자체가 중요한 의미를 지닙니다.

최근 아마존, 소프트뱅크, 엔비디아가 각각 수천억 달러씩 투자한 1,100억 달러 규모의 융자 라운드도 같은 시기에 진행되었습니다.

이 회사는 "좋은 제품을 개발하는" 회사가 아니라 "기업용 AI 에이전트 시장을 장악하기 위해 전력을 다하는" 회사입니다.

GPT-5.4의 네이티브 컴퓨터 작동 기능은 이번 스프린트의 핵심 무기입니다.

02 정말 사용하기 쉬운가요?

기자 회견에서 보여주는 기능 시연은 항상 훌륭해 보이지만, 실제 성능은 아쉬운 부분입니다.

핀테크 기업 월아이 캐피털은 자체 테스트 결과 GPT-5.4가 엑셀 기반 재무 모델 평가의 정확도를 30%포인트 향상시켜 시나리오 분석 자동화 프로세스를 크게 가속화했다고 보고했습니다.

인재 평가 플랫폼인 메르코르의 CEO는 이 모델을 " 우리가 테스트해 본 모델 중 최고 "라고 칭하며, 프레젠테이션 제작, 재무 모델링, 법률 분석과 같은 장기 작업 처리에서 탁월한 성능을 보였다고 강조했습니다.

Codex를 매일 사용하는 한 독립 개발자는 보다 현실적인 평가를 내놓았습니다. "GPT-5.4는 Codex에서 제가 매일 사용하는 새로운 주력 모델입니다. 사고방식이 인간에 더 가깝고, 5.3 버전처럼 기술적인 세부 사항에 집착하지 않습니다." 하지만 그는 주의 사항도 덧붙였습니다. " 조심하세요. 모델이 작업을 잘못 수행하면서도 이를 숨기는 경우를 몇 번 경험했습니다 ."

GPT-5.4의 작동 및 비전 기능 개선 | 이미지 출처: OpenAI

이 세부 사항은 곰곰이 생각해 볼 가치가 있습니다.

벤치마크 데이터 또한 이러한 향상된 성능을 뒷받침합니다. GPT-5.4는 GDPval 벤치마크에서 일반 사무직 근로자의 83%를 능가하는 성능을 보였다고 합니다 . 이 수치는 인상적이지만, 진정한 질문은 "얼마나 많은 사람을 능가했는가"가 아니라 "어떤 작업에서 인간을 대체할 수 있는가"입니다.

하지만 에든버러 대학교 정보학부의 제프 달튼 박사는 현실적인 문제점을 지적했습니다. 현재 시연된 내용들은 그러한 거창한 주장들을 뒷받침할 만큼 충분히 상세한 평가 증거가 부족하다는 것입니다. 기능 자체는 존재하지만, 어디까지 활용 가능한지는 추가적인 독립적인 검증이 필요합니다.

03 요원들의 전장, 안전지대는 없다.

만약 GPT-5.4가 OpenAI의 에이전트 개발 목표를 나타낸다면, 경쟁사들도 가만히 있지 않았다는 뜻입니다.

앤트로픽의 클로드 3.7 소네트는 올해 2월에 "컴퓨터 사용" 기능을 출시했으며, 이 기능을 복잡한 작업을 위해 특별히 설계된 하이브리드 추론 모델로 소개했습니다.

구글의 제미니 2.0 시리즈는 "에이전트" 기능에 계속해서 초점을 맞추고 있으며, 프로젝트 마리너는 이미 크롬 브라우저 내에서 여러 작업을 자율적으로 수행할 수 있습니다.

하지만 GPT-5.4와 경쟁 제품들의 근본적인 차이점은 GPT-5.4 가 오픈아이얼(OpenAI)의 첫 번째 제품으로, 컴퓨터 연산 기능을 범용 모델에 통합했다는 점입니다. 이는 독립형 도구나 추가 호출이 필요한 API가 아니라, 모델 자체에 내재된 기능입니다.

엔지니어링 용어로 "네이티브"란 지연 시간이 짧고, 작업 전환이 매끄럽고, "연결 코드"가 적다는 것을 의미합니다. 에이전트 애플리케이션을 신속하게 배포하려는 기업에게 이러한 차이점은 배포 비용에 직접적인 영향을 미칩니다.

OpenAI는 GPT-5.4가 Microsoft Excel 및 Google Sheets에 직접 연결되어 셀 수준의 세부 분석 및 자동화를 가능하게 한다고 발표했습니다. 이는 기업 의사 결정 프로세스의 핵심을 분명히 겨냥한 조치입니다.

에이전트 경쟁의 장은 누가 가장 빨리 달리느냐가 아니라, 누가 먼저 기업 업무 흐름에 깊숙이 스며들어 "없어서는 안 될 존재"가 되느냐에 달려 있습니다.

기술 제품 출시에는 언제나 열정이 넘치지만, 진정한 시험은 91일째 되는 날, 즉 열기가 식고 사용자들이 실제 업무 환경에서 해당 도구를 사용할 때 시작됩니다. 과연 그 도구는 안정적으로 스크린샷을 찍고, 정확하게 버튼을 클릭하고, 조용히 작업을 완료한 후 결과를 제공할 수 있을까요?

개발자가 "오류를 은폐했다"고 언급한 부분은 이 보고서에서 제가 본 가장 충격적인 문장입니다.

인공지능 에이전트의 능력 한계는 "무엇을 할 수 있는가"가 아니라 "그것이 하는 일을 믿고 맡길 수 있는가"에 달려 있습니다 .

이 첩보전에서 진정한 화폐는 바로 신뢰입니다 .

이 글은 위챗 공식 계정 "GeekPark"(ID: geekpark) 의 화린우왕(Hualinwuwang) 작성, 징위(Jingyu) 편집, 36Kr의 허가를 받아 게재되었습니다.

출처

면책조항: 상기 내용은 작자의 개인적인 의견입니다. 따라서 이는 Followin의 입장과 무관하며 Followin과 관련된 어떠한 투자 제안도 구성하지 않습니다.

라이크

즐겨찾기에 추가

코멘트