베이징 시간으로 새벽 3시에 라이브 스트리밍이 정시에 시작되었고, OpenAI는 ChatGPT Images 2.0을 공개했습니다.
서문에 따르면, "ChatGPT Images 2.0은 진화의 다음 단계입니다. 복잡한 시각적 작업을 처리하고 정확하고 바로 사용할 수 있는 시각적 콘텐츠를 생성할 수 있는 최첨단 모델입니다."
아마도 이러한 이유 때문에 OpenAI의 공식 블로그 게시물은 두 가지 버전(이미지 모드와 클래식 모드)을 제공하며, 이미지 모드의 콘텐츠는 모델이 완전히 생성한 것입니다!
블로그 주소: https://openai.com/index/introducing-chatgpt-images-2-0/
오픈아이디는 블로그 게시물에서 "이미지는 장식이 아니라 언어입니다. 좋은 이미지는 좋은 문장처럼 선택, 구성, 제시되어야 합니다. 이미지는 메커니즘을 설명하고, 분위기를 조성하고, 아이디어를 검증하고, 논증을 구축하는 데 사용될 수 있습니다."라고 밝혔습니다.
ChatGPT Images 2.0은 지시 사항을 세심하게 따르고, 객체를 정확하게 배치 및 연결하며, 고밀도 텍스트를 렌더링하고, 다양한 화면 비율 생성을 지원하는 능력에서 질적인 도약을 이루었습니다. 구성 및 시각적 미학에 대한 뛰어난 역량 덕분에 결과물은 더 이상 "AI가 생성한 것"처럼 보이지 않고 "의도적으로 디자인된" 것처럼 느껴집니다.
또한, 다국어 환경에서 정확하게 작동하며 확장된 시각 및 세계 지식을 활용하여 세부 정보를 채워 넣어 더 적은 입력으로 더 스마트한 이미지를 제공할 수 있습니다.
가장 복잡한 작업을 처리하기 위해 Images 2.0은 최초로 "사고 능력"을 도입했습니다. ChatGPT에서 사고형 모델 또는 프로 모델을 선택하면 Images 2.0은 인터넷에 연결하여 실시간 정보를 얻고, 단일 프롬프트에서 여러 가지 다른 이미지를 생성하며, 자체 출력물을 검토할 수 있습니다. "사고 능력"을 통해 모델은 아이디어와 이미지 사이의 더 많은 작업을 처리할 수 있으며, 특히 정확성, 적시성, 일관성 및 시각적 통일성이 중요한 경우에 효과적입니다.
이 모델은 OpenAI의 추론 모델의 지능과 시각 세계에 대한 깊은 이해를 결합하여 이미지 생성을 단순한 "렌더링"에서 "전략적 디자인"으로 끌어올리고, 아이디어를 이해하기 쉽고, 공유 가능하며, 가르치고, 구축 가능한 결과물로 변환하는 데 도움을 주는 시각 시스템으로 진화시킵니다.
이 기능은 오늘부터 ChatGPT, Codex 및 API의 모든 사용자가 이용할 수 있습니다.
더욱 정밀하고 제어력이 향상되었습니다.
Images 2.0은 이미지 제작에 있어 전례 없는 디테일과 정확도를 제공합니다. 더욱 복잡한 이미지를 생성할 수 있을 뿐만 아니라, 지침을 엄격하게 준수하고 핵심 디테일을 보존하며, 이전에는 왜곡되기 쉬웠던 미세한 요소(작은 텍스트, 아이콘, UI 요소, 고밀도 구성, 미묘한 스타일 제약 조건 등)까지 완벽하게 표현하여 이미지를 생생하게 구현합니다. API는 최대 2K 해상도를 지원합니다. 결과물은 더 이상 "대충 비슷하게"가 아니라 "바로 사용할 수 있는" 수준입니다.
아래 스크린샷은 Images 2.0으로 생성된 것임을 알아두세요!
더욱 강력한 다국어 능력
기존 이미지 생성 모델은 영어 및 라틴 알파벳 언어에서는 비교적 안정적이었지만, 다른 언어, 특히 복잡하거나 밀도 높은 텍스트에서는 정확도가 떨어졌습니다.
Images 2.0은 이러한 한계를 극복하여 다국어 이해도를 크게 향상시켰으며, 특히 일본어, 한국어, 중국어, 힌디어, 벵골어 텍스트 렌더링에서 탁월한 성능을 보여줍니다. 비영어권 텍스트를 정확하게 생성할 뿐만 아니라 자연스럽고 유창한 언어 표현을 보장합니다.
이는 단순히 라벨을 번역하는 것 이상의 의미를 지닙니다. 언어 자체를 디자인의 일부로 만들어 포스터와 설명 도표부터 일러스트레이션과 만화에 이르기까지 시각적, 언어적 통일성을 달성하는 것을 의미합니다. 이러한 접근 방식은 모델의 글로벌 적용 가능성을 높여 사용자가 실제 언어 환경에서 시각적 콘텐츠를 제작할 수 있도록 합니다.
라이브 스트리밍 방송 중, 오픈AI 이미지 연구팀의 일원인 천보위안은 사례 연구를 발표하며 "가상의 오픈AI 베이커리를 위한 수제 마케팅 포스터를 일본어로 제작하세요."라는 과제를 제시했습니다.
그 결과물인 포스터는 주어진 주제에 완벽하게 부합했고, 세부적인 내용까지 정확했다.
"ChatGPT는 매우 상세한 지침을 따르는 데 탁월합니다. 따라서 특정 브랜드 언어, 디자인 미학 등 창작 작업에 필수적인 모든 요소를 갖추고 있다면 ChatGPT를 사용하여 아이디어를 구체화하고 다듬어 원하는 결과를 얻을 수 있습니다."라고 Chen Boyuan은 말했습니다.
보다 성숙한 표현 방식과 사실주의
Images 2.0은 다양한 시각적 스타일에서 크게 향상된 화질을 제공합니다. 사진의 주요 특징, 특히 사실감을 높이는 미묘한 결점까지 포착하는 데 탁월하며, 영화, 픽셀 아트, 만화책 스타일의 영상도 질감, 조명, 구도, 디테일 면에서 더욱 일관성 있게 표현합니다.
따라서 모델 출력물은 단순한 모방이 아닌 지정된 스타일에 더 가깝습니다. 이는 게임 프로토타이핑, 스토리보드 제작, 마케팅 아이디어 구상, 특정 미디어 또는 장르를 위한 에셋 제작 등에 특히 유용합니다.
유연한 화면 비율
새로운 모델은 출력 형식에 있어 더욱 뛰어난 유연성을 제공하며, 3:1부터 1:3까지 다양한 화면 비율을 지원합니다. 배너, 프레젠테이션, 포스터, 모바일 인터페이스, 책갈피, 소셜 미디어 그래픽 등 다양한 시나리오에 바로 적용할 수 있습니다. 프롬프트에서 화면 비율을 지정하거나, 사전 설정 옵션을 사용하여 기존 이미지를 새 크기로 변환할 수 있습니다.
다음은 일반적이지 않은 화면 비율의 두 가지 예입니다.
현실 세계에 대한 더 깊은 이해
Images 2.0은 2025년 12월까지의 정보를 통합하여 생성된 결과의 관련성과 맥락적 정확성을 더욱 향상시킵니다. 이는 정확성과 명확성이 미적 요소만큼 중요한 설명 도표, 교육용 그래픽 및 시각적 요약 자료에 특히 중요합니다.
이러한 지능적인 기능은 정보 통합, 콘텐츠 작성, 명확한 구조, 적절한 여백, 그리고 훌륭한 시각적 흐름을 갖춘 타이핑 등 전반적인 작업 처리 과정에서도 드러납니다.
시각적 사고 파트너
ChatGPT에서 사고 모델을 활성화하면 시스템이 백그라운드에서 더 심층적인 이해와 실행을 수행합니다. 온라인에서 정보를 검색하고, 업로드된 자료를 명확한 시각적 설명으로 변환하며, 이미지를 생성하기 전에 이미지 구조를 추론할 수 있습니다.
이 모드에서 Images 2.0은 시각적 사고 파트너처럼 작동하여 초기 개념을 완성된 제품으로 변환하는 데 도움을 주고 작업량을 크게 줄여줍니다.
또한 ChatGPT 이미지 생성 기능 최초로 여러 이미지를 한 번에 생성할 수 있습니다. 이를 통해 여러 페이지로 구성된 만화, 전체 주택 디자인 계획, 포스터 시리즈 또는 다국어 및 다양한 크기의 소셜 미디어 콘텐츠와 같은 워크플로를 효율적이고 실현 가능하게 만들 수 있습니다.
이미지를 개별적으로 생성한 다음 수동으로 이어 붙일 필요가 없습니다. 단 한 번의 요청으로 문자 및 요소 측면에서 일관성이 있고 연속성이 있는 최대 8개의 출력물을 얻을 수 있습니다.
Codex에서의 이미지 생성
이미지 기능이 Codex에 통합되어 동일한 작업 공간 내에서 시각적 콘텐츠 제작, 반복 작업 및 전달을 완료할 수 있게 되었으며, 디자인, 마케팅, 제품, 영업 및 교육과 같은 분야에서 활용 범위가 확장되었습니다.
예를 들어, Codex를 벗어나지 않고도 여러 UI 디자인과 프로토타입을 빠르게 생성하고, 솔루션을 비교하고, 최적의 디자인을 제품이나 웹 환경으로 직접 구현할 수 있습니다. 이 기능은 ChatGPT 구독을 통해 이용 가능하며, 별도의 API 키는 필요하지 않습니다.
API를 통해 제품에 이미지 기능을 내장합니다.
개발자와 기업은 gpt-image-2 API를 통해 이러한 기능을 자사 제품에 통합하여 기존 워크플로에 고품질 이미지 생성 및 편집 기능을 추가할 수 있습니다.
향상된 텍스트 렌더링, 다국어 생성, 지침 준수 기능, 더 많은 출력 형식 및 화면 비율 지원을 통해 이 API는 현지화된 광고, 인포그래픽, 설명 다이어그램, 교육 콘텐츠, 디자인 도구, 크리에이티브 플랫폼 및 웹 페이지 생성 제품과 같은 실제 업무 시나리오에 맞는 이미지 워크플로를 더 쉽게 구축할 수 있도록 지원합니다.
한정
OpenAI는 블로그 게시물에서 모델의 한계점도 언급했습니다. Images 2.0은 상당한 발전이지만 아직 완벽하지는 않습니다. 종이접기 강좌, 루빅 큐브, 기타 복잡한 구조물과 같이 물리적 세계를 완벽하게 모델링해야 하는 작업이나 숨겨진 면, 기울어진 면, 뒤집힌 표면과 같은 세부적인 부분까지 정확하게 표현해야 하는 작업에서는 모델이 여전히 부족할 수 있습니다.
밀도가 매우 높거나 (가는 모래와 같이) 반복적인 세부 사항이 있는 경우에도 어려움이 발생할 수 있습니다. 특히 정확한 화살표나 부품 표시가 필요한 경우, 라벨과 도표에 대해서는 수작업으로 교정하는 것이 여전히 권장됩니다.
이것들은 모두 향후 개선을 위한 중요한 방향입니다.
API에서 2KB를 초과하는 출력은 현재 테스트 단계에 있으며 불안정할 수 있습니다.
가격 및 이용 가능 여부
ChatGPT Images 2.0은 오늘부터 모든 ChatGPT 및 Codex 사용자에게 제공됩니다. 고급 출력 기능과 "사고력"을 갖춘 기능은 ChatGPT Plus, Pro 및 Business 사용자에게 제공됩니다.
gpt-image-2 모델은 API에서 사용할 수 있으며, 가격은 이미지 품질 및 해상도에 따라 다릅니다.
OpenAI는 또한 공식 웹사이트에 대량 사례 연구를 게시했으며, 관심 있는 독자는 편리하게 방문할 수 있습니다.
또한 중국 대학 입학 시험 수학 문제지 2페이지를 생성하는 것과 같은 간단한 테스트를 진행했는데, 결과는 괜찮아 보였습니다.
실제 테스트에서 ChatGPT Images 2.0은 일반적으로 이미지를 생성하기 위해 생성 → 초안 → 1차 초안 → 장면 설정 → 세부 사항 개선 → 마무리 작업 → 최종 다듬기 → 최종 미세 조정과 같은 여러 단계를 거치는 것을 페이지에서 확인할 수 있습니다.
다음으로, 이백의 시 "강경구"를 가로세로 비율 3:1의 전통 중국 초서체로 표현한 이미지를 생성합니다. 내용은 "강경구" 전문이며, 서명은 ChatGPT Images 2.0입니다.
하지만 모델이 완전한 버전을 생성하지 못했고, 필기체도 아니라는 점은 분명합니다.
마지막으로, 다음 페이지에는 다섯 가지 연속 번개 채찍 기술을 설명하는 그림이 있습니다.
꽤 흥미롭네요.
전반적으로 ChatGPT Images 2.0은 현재의 Nano Banana 2보다 훨씬 강력하다고 생각합니다. 구글의 반응을 지켜보겠습니다.
ChatGPT Images 2.0을 사용해 보셨나요? 어떠셨는지 궁금합니다.
이 글은 위챗 공식 계정 "머신하트"(ID: almosthuman2014) 에서 Panda와 Youli가 작성하고 36Kr의 허가를 받아 게시한 글입니다.



