OpenAI가 GPT-5.4를 공개했으며, Codex에서 사용된 것과 동일한 시스템인 Harness를 정식으로 사용할 수 있게 되었습니다.

36氪

04-16

이 기사는 기계로 번역되었습니다

원문 표시

OpenAI가 또 한 번 조용히 영리한 행보를 보였습니다.

방금 Agents SDK의 아키텍처가 완전히 재설계되었습니다 .

네이티브 하네스, 네이티브 샌드박스, 코덱스 수준의 파일 시스템 도구는 물론, 7개 주요 샌드박스 공급업체의 원클릭 액세스 기능까지 제공합니다.

GPT-5.4가 3월 초 컴퓨터에서 네이티브로 사용되면서 큰 주목을 받으며 데뷔했을 때, 개발자들은 이미 한 가지 문제에 대해 불만을 제기한 바 있습니다.

이 모델은 컴퓨터를 작동시킬 수 있지만, 에이전트가 실행되는 위치와 문제없이 실행되도록 보장하는 방법은 여전히 처음부터 프레임 구축해야 합니다.

OpenAI는 오늘 밤 스스로 그 공백을 메웠습니다.

요약하자면, OpenAI는 자사의 Agents SDK를 "챗봇을 위한 장난감"에서 "실제 운영 환경에서 사용할 수 있는 에이전트의 기반"으로 탈바꿈시켰습니다.

하네스는 제어 흐름, 모델 호출, 도구 라우팅 및 일시 중지/재개를 담당하고, 샌드박스는 파일 읽기/쓰기, 종속성 설치 및 코드 실행을 담당하며, 이 두 계층은 완전히 분리되어 있습니다.

더욱 가혹한 것은 이러한 타격이 LangChain, CrewAI, LangGraph와 같은 타사 에이전트 프레임 에도 영향을 미쳤다는 점입니다.

OpenAI는 인프라 계층을 구축하여 제3자가 개입할 여지를 눈에 띄게 줄였습니다.

"챗봇 장난감"부터 양산형 베이스까지

이번 업그레이드에 대해 논의하기 전에, 기존 에이전트 SDK가 어떤 모습이었는지 먼저 이해해야 합니다.

2025년 3월, OpenAI는 처음으로 에이전트 SDK를 출시하며, 경량성, 낮은 추상화 수준, 그리고 단 몇 줄의 파이썬 코드로 실행할 수 있는 기능을 강조했습니다.

하지만 이 SDK 버전은 기본적으로 챗봇 시나리오에 맞춰 설계되었습니다.

1년 이상이 지났고, 모델의 성능은 극적으로 향상되어 이제 몇 시간, 며칠, 심지어 몇 주 동안 연속으로 작동할 수 있습니다.

원래 챗봇용으로 설계된 SDK는 이제 구식입니다.

이번 수정 작업은 주로 두 가지 사항을 변경했습니다.

첫 번째 단계는 모델에 완전한 운영 프레임, 즉 하네스를 장착하는 것입니다.

구성 기반 메모리, 샌드박스 인식 오케스트레이션, Codex와 유사한 파일 시스템 도구, MCP를 통한 도구 호출, 스킬을 통한 점진적 정보 공개, AGENTS.md를 통한 사용자 지정 명령, 셸 도구를 통한 코드 실행, 패치 적용 도구를 통한 파일 편집 등 모든 기능이 SDK에 포함되어 기본적으로 지원됩니다.

Claude Code와 Codex에 익숙한 개발자라면 이 목록이 매우 친숙하게 느껴질 것입니다.

맞습니다. 이번에 OpenAI는 지난 1년간 Codex를 통해 겪고 축적해 온 문제점과 모범 사례를 활용하여 SDK를 편리하게 제품화했습니다.

두 번째는 하네스와 컴퓨팅 부분을 완전히 분리하는 것입니다.

Harness는 신뢰할 수 있는 인프라 내에서 실행되어 모델 호출, 승인, 추적 및 런타임 상태를 관리합니다. Compute는 파일 읽기/쓰기, 명령 실행, 패키징 및 아티팩트 출력을 전담하는 별도의 샌드박스입니다.

두 계층 간의 표준화된 인터페이스를 통해 API 키와 민감한 자격 증명은 모델 생성 코드가 실제로 실행되는 환경에 절대 유입되지 않습니다.

결과적으로 샌드박스에는 API 키나 민감한 자격 증명이 포함되어 있지 않습니다. 샌드박스 자체는 완전히 격리되어 있으며 네트워크에서 연결을 끊더라도 외부 트래픽이 전혀 발생하지 않습니다.

이는 보안 기능에 대한 사소한 수정이 아닙니다. 에이전트 아키텍처 전체의 패러다임 전환입니다.

900페이지짜리 보험 증권에서 100% 클레임, 그중 절반은 담당 설계사가 작성한 홍보 자료였다.

하네스/컴퓨팅 분리의 첫 번째 결과는 샌드박스 공급업체의 생태계 지도가 하룻밤 사이에 드러났다는 것이었습니다.

이번 릴리스에서는 Blaxel, Cloudflare, Daytona, E2B, Modal, Runloop, Vercel 등 7개의 샌드박스 공급업체가 공식 지원 목록에 동시에 추가되었습니다.

7개 기업이 동시에 연결할 수 있도록 하는 핵심은 OpenAI가 제공하는 Manifest라는 추상화 계층에 있습니다. Manifest는 에이전트의 작업 공간을 설명하는 구성 목록입니다.

이 매니페스트는 마운트할 로컬 파일, 데이터를 가져올 클라우드 스토리지, 그리고 아티팩트를 저장할 위치를 지정합니다. AWS S3, Google Cloud Storage, Azure Blob Storage 및 Cloudflare R2를 지원합니다.

가장 중요한 점은 이 매니페스트가 특정 샌드박스 공급업체와 분리되어 있다는 것입니다.

오늘 E2B를 사용해서 에이전트를 작성했는데, 내일은 Modal로 전환하고 싶습니다. 코드를 다시 작성할 필요 없이 설정 파일 한 줄만 바꾸면 됩니다. 데이터 센터에서 가장 가깝거나 비용이 저렴한 샌드박스로 전환할 예정입니다.

공식 문서에는 최소한의 예제가 제공됩니다. 이 예제는 로컬 샌드박스에서 에이전트를 실행하고, 재무 보고 디렉터리를 연결한 다음, 2025 회계연도와 2024 회계연도의 세 가지 재무 지표를 비교합니다. 핵심 코드는 20줄도 채 되지 않습니다.

장기 임무에 특히 중요한 두 가지 새로운 기능은 스냅샷 및 상태 복구 기능 으로, 이를 통해 샌드박스 컨테이너가 실패하더라도 체크포인트에서 작업을 계속할 수 있습니다. 또한 , 멀티 샌드박스 병렬 처리와 하위 에이전트 격리 환경은 확장성 문제를 해결합니다.

이로써 Agent는 처음으로 "연결 끊김으로부터 복구"하고 "클론 환경에서 작동"하는 고유한 기능을 갖추게 되었습니다.

모달 기술팀의 일원인 에릭 던테만은 장문의 기술 문서에서 한 가지 세부 사항을 무심코 공개했습니다.

Ramp는 이미 Modal을 사용하여 대규모 백엔드 코딩 에이전트 팀을 구축했으며, 회사에서 제출하는 PR의 절반 이상은 이러한 에이전트들이 직접 생성한 것입니다.

또한 스트라이프는 올해 초 자체 AI 에이전트가 매주 1,000건 이상의 구매 요청(PR)을 생성한다고 공개했습니다.

두 회사의 공통점은 성숙한 에이전트 인프라를 확보한 후 업무 팀의 생산성이 크게 향상되었다는 점입니다.

오늘날 OpenAI는 한때 최상위 기업에서만 사용할 수 있었던 이러한 인프라를 SDK에서 바로 사용할 수 있는 기본 구성으로 만들었습니다.

https://modal.com/blog/building-with-modal-and-the-openai-agent-sdk

이에 대해 FurtherAI의 CTO인 사샨크 곤달라는 자사 요원들이 900페이지가 넘는 보험금 청구 기록을 100% 성공률 클레임 추출하는 데 성공했다고 밝혔습니다.

900페이지가 넘는 분량에 100% 보험금 청구 기록이라는 세 단어는 베테랑 보험 전문가라면 누구나 즉시 알아볼 만큼 높은 가치를 지니고 있습니다. 이는 업계에서 가장 이해하기 어려운 문서 중 하나이며, 과거에는 특정 페이지에서 프로그램이 다운되는 경우가 흔했습니다.

토모로 AI 연구 개발 엔지니어인 더글러스 애덤스는 또 다른 구체적인 수치를 제시했습니다. 동일한 기능을 가진 에이전트의 경우, 이번에는 필요한 코드 양이 이전보다 6배 적다는 것입니다.

Box 개발자 관계 관리자인 카터 라바사는 업무 데이터와 bash/python 도구를 제공하여 담당자가 샌드박스 내에서 완전한 송장 업무 프로세스를 실행할 수 있도록 했습니다.

뜻밖에도 첫 번째 테스트는 순조롭게 진행되었습니다.

샌드박스는 에이전트가 생성한 코드를 실행하기에 완벽한 환경입니다.

OpenAI가 인프라 개발에 참여하면서 LangChain과 같은 프로그램들이 숨을 곳이 없어졌습니다.

이 수준에 이르러서야 이번 출시가 업계에 미치는 진정한 영향이 분명해집니다.

LangChain, LangGraph, CrewAI, AutoGen과 같은 타사 에이전트 프레임 어떻게 지난 한 해 동안 살아남을 수 있었을까요? 그 답은 바로 OpenAI의 네이티브 SDK의 부족한 부분을 채워 "실제 사용 가능한" 환경을 구축했기 때문입니다.

오케스트레이션, 메모리 관리, 안전장치, 추적 및 다중 에이전트 협업은 타사 프레임 의 주요 경쟁 분야입니다.

이제 OpenAI는 이러한 주요 격전지들을 한꺼번에 장악했습니다.

그들이 하고 있는 일은 에이전트 세계의 인프라 계층을 구축하는 것입니다. 이후 서드파티 프레임 더 높은 수준(오케스트레이션, 수직적 시나리오)으로 나아가거나 더 낮은 수준(전용 샌드박스, 전용 도구)으로 나아갈 것입니다. 그 중간 기반은 OpenAI 자체에서 다져 놓았습니다.

더욱이, OpenAI가 주장하는 "모든 샌드박스 서비스 제공업체와의 호환성"은 샌드박스 제공업체를 OpenAI의 생태계에 포함시키려는 시도 그 자체입니다.

오늘날 그들은 OpenAI의 파트너일지 모르지만, 내일은 OpenAI 생태계 내의 단순한 "구성 요소 공급업체"가 될 수도 있습니다.

파이썬이 앞서나가고 있고, 타입스크립트는 아직 대기 중입니다.

이 모든 것이 아직 완벽한 것은 아닙니다.

하네스와 샌드박스의 새로운 기능은 처음에는 파이썬 버전으로만 출시되었으며, 타입스크립트 버전은 추후 업데이트에서 제공될 예정입니다. SDK는 여전히 0.YZ 버전에 머물러 있습니다.

하지만 방향은 이미 아주 명확합니다.

GPT-5.4는 네이티브 컴퓨터 사용을 지원하며, 에이전트 SDK는 완벽한 런타임 환경을 제공합니다.

다음 단계는 더 많은 개발자들이 이 인프라 위에 업무 로직을 구축하도록 하는 것입니다.

이 시점부터 에이전트 프레임 개발하는 스타트업들은 자신들의 포지셔닝을 재평가하게 될 것입니다. 샌드박스 공급업체들은 OpenAI의 트래픽을 처리할 수 있을지 여부를 계산하기 시작할 것이고, 업무 계층 에이전트 애플리케이션을 개발하는 팀들은 마이그레이션을 고려할 것입니다.

GPT-5.4가 출시된 날, 일부 사람들은 이를 "특별한 놀라움이 없는 평범한 업그레이드"라고 평했습니다.

40일 후를 돌아보면, 진정한 놀라움은 바로 오늘에야 드러날 것입니다.

참고 자료:

https://techcrunch.com/2026/04/15/openai-updates-its-agents-sdk-to-help-enterprises-build-safer-more-capable-agents/

https://modal.com/blog/building-with-modal-and-the-openai-agent-sdk

https://openai.com/index/the-next-evolution-of-the-agents-sdk/

https://x.com/OpenAIDevs/status/2044466699785920937

https://x.com/snsf/status/2044514160034324793

이 글은 위챗 공식 계정 "신지원" 에서 하오쿤이 작성하고 36Kr의 허가를 받아 게재한 글입니다.

출처

면책조항: 상기 내용은 작자의 개인적인 의견입니다. 따라서 이는 Followin의 입장과 무관하며 Followin과 관련된 어떠한 투자 제안도 구성하지 않습니다.

라이크

즐겨찾기에 추가

코멘트