인공지능 거대 기업 OpenAI는 오늘(26일) 생중계에서 지금까지 가장 첨단의 이미지 생성 모델을 출시했으며, GPT-4o에 내장되어 있어 사용자는 이제 ChatGPT에서 직접 빠르게 이미지를 생성하고 편집할 수 있게 되었으며, DALL-E를 더 이상 열 필요가 없습니다.
공식적으로 해당 기능은 즉시 Pro 구독 사용자(월 200달러)에게 개방되며, 점진적으로 Plus, 팀 및 무료 사용자에게 출시될 예정이고 Sora 플랫폼 및 API 개발자에게도 제공됩니다. 기업 및 교육 사용자도 곧 사용할 수 있게 됩니다.
GPT-4o의 이미지 생성은 더 높은 정확도와 유용성을 제공
새로운 기능은 GPT-4o 모델을 사용하여 기존의 DALL-E 3를 대체하며, 원시 이미지 생성 및 편집 기능을 갖추고 있습니다. 공식적으로 이미지 품질은 육안으로 구분하기 어려울 정도로 사실적이며 세부 사항이 풍부해 Midjourney 등의 경쟁 업체를 능가한다고 합니다.
기존의 한 번에 전체 이미지를 생성하는 확산 모델과 달리, GPT-4o는 자기회귀 기술을 사용하여 텍스트 작성과 유사하게 왼쪽에서 오른쪽으로, 위에서 아래로 점진적으로 이미지를 생성합니다. 연구 책임자 Gabriel Goh는 The Verge에 밝혔듯이, 이 기술은 텍스트 렌더링 및 바인딩 능력을 크게 향상시켜 명령을 더 잘 따르며, 동시에 10~20개의 객체를 포함한 복잡한 명령을 정확하게 처리할 수 있어 경쟁 업체의 5~8개 제한을 크게 뛰어넘습니다.
또한, GPT-4o는 이미지 생성의 여러 측면에서 혁신을 이루었습니다:
- 더 정확한 텍스트 렌더링 및 텍스트 통합: 과거 모델은 선명하고 위치가 정확한 텍스트를 생성하기 어려웠지만, GPT-4o는 텍스트를 이미지와 정확하게 융합하고 GPT의 풍부한 지식을 통합하여 정보 그래픽, PPT 또는 포스터를 빠르게 제작하는 데 더 적합합니다.
- 다중 라운드 이미지 생성: 한 문장으로 이미지를 편집할 수 있으며, 가로세로 비율을 유연하게 조정하고 16진수 색상 코드로 정확한 색상을 지정하거나 배경을 제거할 수 있습니다. 또한 채팅 기록을 활용하여 사용자가 대화형으로 이미지를 세밀하게 수정할 수 있으며, 여러 번 생성 간의 일관성을 유지할 수 있습니다.
- 다중 모드 입력 및 출력(텍스트, 이미지): GPT‑4o는 사용자가 업로드한 이미지를 분석하고 학습하여 해당 세부 사항을 원활하게 컨텍스트에 통합하여 이미지 생성을 안내할 수 있습니다.
- 다양한 스타일 변환: 손으로 그린 스케치부터 고해상도 사실적인 스타일까지, 모델은 유연하게 생성하고 변환할 수 있어 다양한 요구를 충족시킬 수 있습니다.
생성 속도가 DALL-E 3보다 약간 느리지만, OpenAI는 품질 향상이 이러한 대기 시간을 충분히 가치 있게 만든다고 강조합니다. 시연된 사례에는 다중 패널 만화(캐릭터 일관성이 매우 높음), 로고, 정보 포스터, 레스토랑 메뉴 디자인 등이 포함되어 있어 그 상업적 응용 잠재력을 보여줍니다.
OpenAI의 CEO Sam Altman은 생중계에서 흥분되게 말했습니다: "이 이미지들의 품질은 놀랍습니다. 이것들이 AI에서 나왔다는 것을 거의 믿을 수 없습니다! 이는 창의성의 새로운 정점입니다."