
최근 OpenAI는 AI 칩 스타트업인 Cerebras와 협력하여 GPT-5.3-Codex의 소형 버전이자 "실시간 프로그래밍"을 위해 특별히 설계된 OpenAI 최초의 모델인 GPT-5.3-Codex-Spark를 출시한다고 발표했습니다. 이 모델은 초기에는 ChatGPT Pro 사용자에게 제공되어 개발자들이 직접 체험해 볼 수 있도록 할 예정입니다.
세레브라스(Cerebras)는 무엇인가요? 양측 협력의 동기는 무엇인가요?
OpenAI는 사용자 증가 속도가 빠른 반면 해시레이트 이라는 이중고에 직면해 있으며, ChatGPT, 프로그램 생성, AI 에이전트와 같은 제품의 실시간 응답 경험을 개선하기 위해 실시간 상호작용 시나리오를 지원하는 초저지연 AI 추론 해시레이트 시급히 필요합니다.
세레브라스의 웨이퍼 레벨 칩은 기존 GPU 클러스터의 통신 병목 현상을 해소하여 더욱 빠르고 효율적인 추론 성능을 제공합니다. 이에 따라 오픈AI와 세레브라스는 100억 달러 이상의 규모로 다년간 협력 계약을 체결하고 최대 750MW의 저지연 컴퓨팅 파워를 확보했습니다. 이는 복잡한 쿼리, 코드 생성, 실시간 인터랙티브 경험의 가속화를 목표로 하며, 동시에 NVIDIA에 대한 의존도를 줄이고 공급망 안정성을 강화하는 전략적 움직임이기도 합니다.
OpenAI와 Cerebras의 협력은 단계적으로 진행될 예정이며, 인프라 개발은 2026년에 시작하여 2028년까지 전체 배포가 완료될 것입니다. Cerebras는 데이터 센터를 호스팅하고 전용 저지연 해시레이트 제공하며, OpenAI는 전용 초저지연 컴퓨팅 용량을 확보하게 됩니다. 이 용량은 이미 첫 번째 협력 모델인 GPT-5.3-Codex-Spark의 추론 작업에 사용되었습니다.
Codex-Spark는 이중 트랙 자동화 메커니즘을 갖춘 실시간 협업 프로그래밍을 위해 설계되었습니다.
OpenAI는 최근 출시한 최첨단 모델이 사람의 개입 없이 몇 시간, 며칠, 심지어 몇 주 동안 지속적으로 작동하며 복잡한 작업을 자율적으로 수행할 수 있다고 밝혔습니다. 한편, Codex-Spark는 "Codex를 사용한 실시간 협업 프로그래밍"을 위해 특별히 설계된 최초의 모델로, 개발자가 코드 수정, 논리 조정 및 인터페이스 변경을 즉시 요청하고 결과를 바로 확인할 수 있도록 합니다. 이는 Codex에서 현재 제공하는 두 가지 자동화된 워크플로 모드를 나타냅니다.
"한 가지 유형은 장기적인 장기 작업 자동화 실행이고, 다른 유형은 실시간 상호 작용, 빠른 수정 및 즉각적인 피드백입니다."
OpenAI는 개발자들의 실제 사용 경험을 바탕으로 개방성의 기능과 범위를 점진적으로 확장해 나갈 것이라고 밝혔습니다.
저지연 리소스는 제한적이며, 피크 시간대에는 트래픽 제한이 발생할 수 있습니다.
연구 미리보기 단계에서 Codex-Spark는 128KB의 컨텍스트 길이를 제공하고 텍스트 입력만 지원하며, 표준 모델의 할당량을 소모하지 않고 독립적인 트래픽 및 속도 제한을 적용합니다. 또한 OpenAI는 특수 저지연 컴퓨팅 리소스를 사용하기 때문에 전반적인 서비스 안정성을 유지하기 위해 사용량이 많은 시간대에는 대기열 발생이나 일시적인 접근 제한이 발생할 수 있음을 사용자에게 알려드립니다.
Codex-Spark는 속도와 성능의 균형을 맞춰 대화형 프로그래밍을 최적화합니다.
Codex-Spark는 속도와 기능을 동등하게 중요하게 고려하여 대화형 프로그래밍 시나리오에 최적화되어 있습니다. 사용자는 모델 작동 중 실시간으로 중단하거나 방향을 조정할 수 있으며, 콘텐츠를 빠르고 반복적으로 수정할 수 있습니다.
신속한 대응을 보장하기 위해 OpenAI 시스템은 기본적으로 경량 워크플로우를 채택하여 최소한의 필수 수정만 수행하고 사용자가 명시적으로 요청하지 않는 한 테스트를 자동으로 실행하지 않습니다. 공식 예시로는 뱀 게임 제작, 프로젝트 계획, 파일 번역 등의 애플리케이션 시나리오가 있습니다. 아래 이미지는 공식 예시이며, 다음 사항을 강조합니다.
"게임을 제작할 때, GPT-5.3-Codex-Spark는 코딩 능력과 속도 면에서 이전 모델인 GPT-5.3-Codex를 능가했습니다."

성능 중심의 진화, 소프트웨어 최적화 및 저지연 칩의 결합이 이를 지원합니다.
OpenAI는 Codex-Spark를 통해 작업 완료 시간을 크게 단축하고 요청 제출부터 응답 반환까지 전체 프로세스를 최적화했다고 밝혔습니다. 구체적으로 클라이언트-서버 왕복 오버헤드를 약 80%, 토큰당 처리 부담을 약 30% 줄였습니다. 또한 사용자가 요청을 제출한 후 대화 상자에 첫 번째 응답 텍스트가 표시되는 데 걸리는 시간이 약 50% 단축되어 전반적인 상호 작용이 훨씬 원활해졌습니다.
하드웨어 측면에서 Codex-Spark는 Cerebras의 Wafer Scale Engine 3 저지연 추론 플랫폼에 배포되었으며 OpenAI의 기존 프로덕션 아키텍처에 통합되었습니다. OpenAI는 GPU가 대규모의 비용 효율적인 연산을 담당하는 학습 및 추론의 핵심 동력이며, Cerebras는 초저지연 시나리오를 보완하는 역할을 한다고 설명합니다. 이 둘은 동일한 워크플로에서 함께 사용할 수 있습니다.
현재 Codex-Spark는 ChatGPT Pro 사용자에게 연구용 미리보기 형태로 제공되고 있으며, API는 일부 디자인 파트너만 테스트할 수 있습니다. 보안 측면에서는 표준 평가를 통과했으며 내부 리스크 역량 기준에 도달하지 않았습니다. 향후에는 실시간 상호작용과 장기적인 작업을 점진적으로 통합하는 이중 모드 방식으로 개발될 예정입니다.
(OpenAI가 macOS용 새로운 Codex 앱을 출시했습니다! ChatGPT 무료 사용자는 기간 한정으로 이용할 수 있습니다.)
이 기사, "OpenAI GPT-5.3-Codex-Spark 출시: 프로 사용자, 조기 액세스 및 더 빠른 응답 제공"은 ABMedia 에 처음 게재되었습니다.