DeepSeek이 V3 모델 0324 버전 업데이트를 출시한 지 불과 24시간 만에 OpenAI는 "뒤처지기를 원하지 않는" 듯 베이징 시간으로 3월 26일 이른 아침에 새로운 제품 출시를 발표했습니다.
이번에는 GPT-5가 공식 출시 전에 출시될 것이라는 소문이 있었지만, OpenAI의 그동안 다양한 제품 출시 리듬을 고려하면 이는 대규모 업데이트는 아닐 것입니다. 하지만 이번 라이브 방송에서 공개된 ChatGPT에 통합된 소라의 새로운 버전은 여전히 모든 사람에게 예상치 못한 '프로그램 효과'를 가져다주었습니다.
현재 ChatGPT에 통합된 Sora는 독립적인 애플리케이션 버전에 비해 일시적으로 이미지 생성에만 국한되어 있지만, OpenAI가 라이브 방송에서 소개한 바에 따르면 이 모델은 이전 모델에 비해 질적으로 큰 도약을 이루었습니다.
개발팀은 GPT-4o의 "옴니모달" 기능(텍스트, 이미지, 오디오, 비디오 등 모든 유형의 데이터를 생성할 수 있는 모델)을 기반으로 이 버전의 Sora를 개발했다고 알려졌습니다. 따라서 사용자는 자신의 필요 사항을 직접 말할 수도 있고, 심지어 사진을 업로드하거나 찍어서 프롬프트로 사용할 수도 있습니다.
예를 들어, 라이브 데모 중에 그들은 샘 알트먼을 포함한 세 사람의 셀카를 각자의 휴대폰으로 찍은 다음 소라에게 "애니메이션 스타일 버전"을 만들어 달라고 요청했습니다.
그게 전부가 아닙니다. 세 사람은 소라가 그림에 "AGI를 느껴라"라는 텍스트를 추가하는 방법을 그 자리에서 시연하기도 했다. 소라 이모티콘의 첫 번째 새로운 버전은 그 자리에서 그려졌습니다.
이 사이트에서 생성된 이모티콘 패키지는 정확하고 명확한 텍스트를 포함할 뿐만 아니라 굵은 텍스트를 포함하여 현재 인기 있는 밈의 필수 요소를 정확하게 이해합니다. 이것을 바로 밈으로 써서 다양한 단체에 보낼 수도 있습니다.
OpenAI가 공식적으로 이 활동을 주도한 이후, 댓글 섹션의 많은 사용자도 영감을 받아 Grok에 동일한 프롬프트를 공급하여 동일한 프롬프트와 사진을 사용하여 동일한 스타일의 콘텐츠를 생성하려고 시도했습니다. 하지만 그 효과는 새로운 버전의 소라보다 훨씬 나쁘고, 더욱 유머러스한 효과를 가져온다.
OpenAI는 주요 밈 이미지 외에도 새로운 버전의 Sora에서 텍스트 렌더링의 개선 사항을 시연했습니다. 이를 통해 이미지의 철자 오류 없이 일관된 텍스트를 생성할 수 있는 성공률을 크게 높일 수 있습니다.
또 다른 시연 시나리오에서 OpenAI 팀은 Sora에게 상대성 이론을 이해하기 위한 만화 카드를 생성하도록 요청했습니다.
이전의 원시 이미지 모델과는 달리, 텍스트 생성 부분이 종종 혼란스럽거나 심지어 "AI가 만든 캐릭터"였던 반면, 새로운 버전의 소라 기본 이미지 생성과 생성된 텍스트는 더 이상 명백한 혼란이 없으며 , 심지어 만화에서 매우 자연스럽고 유창한 일본어를 생성하여 예상치 못하게 일본 커뮤니티의 많은 일본 사용자를 "미치게" 만들었습니다.
텍스트를 올바르게 렌더링하는 것은 과거에는 이미지 생성 모델에 있어서 엄청난 과제였습니다. 소제목이나 텍스트 요소에 오타나 오류가 있으면 전체 이미지를 사용할 수 없게 될 수 있습니다.
또한 이 사례에서 OpenAI는 상대성 이론과 같은 "세상에 존재하는 지식"에 대한 올바른 참조도 보여주었습니다.
ChatGPT의 멀티모달 제품 책임자인 재키 섀넌은 언론과의 인터뷰에서 "제가 이미지를 그리면 제 기술에 제한이 따르고, 제가 축적한 세상에 대한 모든 지식에도 제한을 받습니다."라고 이 기능의 필요성을 설명했습니다.
"이 모델은 세계 지식을 통합하므로 뉴턴 프리즘 실험 이미지를 생성하도록 요청할 때 뉴턴 프리즘 실험 자체가 무엇인지 설명할 필요가 없으며 정확한 이미지를 얻을 수 있습니다."
위의 라이브 방송에서 언급된 모델 기능 개선 외에도 OpenAI는 새로운 버전의 Sora가 속성과 객체 간의 올바른 관계를 유지하는 기능을 크게 향상시켰다고 밝혔습니다. 예를 들어, 결합 능력이 낮은 모델은 파란색 별과 빨간색 삼각형 대신 삼각형이 없는 빨간색 별을 생성할 수 있습니다.
OpenAI에 따르면, 기존 이미지 모델의 대부분은 이 측면에서 실수를 쉽게 저지르며, 특히 여러 항목(보통 5~8개)을 렌더링해야 할 때 색상과 모양을 혼동하는 경우가 많습니다. Sora의 새로운 버전 이미지 생성 기능은 15~20개 객체의 속성을 올바르게 바인딩하여 각각의 복잡한 요구 사항을 이해하는 동안 객체가 잘못 연결되는 것을 방지하고 성공률을 크게 향상시킬 수 있습니다.
사용자 경험의 개선 외에도 OpenAI가 확인한 또 다른 세부 사항은 새로운 버전의 Sora가 이전 버전보다 이미지를 생성하는 데 시간이 더 오래 걸리지만, OpenAI는 이것이 가치 있는 타협이라고 생각한다는 것입니다.
"지연 시간 측면에서 개선의 여지가 확실히 있지만 생성된 이미지의 품질, 기능 및 세계 지식이 사용자가 기다려야 하는 몇 초를 실제로 보상한다고 생각합니다."라고 Shannon은 말했습니다.
원시 이미지 분야의 보안 문제와 관련하여 작년부터 올해까지 유명인의 위조된 음란 이미지, 이슈 행사의 가짜 이미지가 많이 등장했으며, Google Gemini가 사진의 원래 워터마크를 삭제한 사례도 있었습니다. OpenAI팀은 새로운 버전의 Sora가 이미 사진 워터마크를 제거할 수 있고, 딥페이크 이미지 생성을 방지하고 관련 콘텐츠 요청 생성을 거부할 수 있다고 강조했습니다. 동시에, 생성된 모든 이미지에는 해당 이미지가 OpenAI에 의해 생성되었음을 태그 하는 표준 C2PA 메타데이터가 포함됩니다.
현재 ChatGPT에 통합된 Sora 이미지 생성 모델 기능의 새로운 버전은 Pro 및 Plus 구독 패키지 사용자에게 공개되었으며, OpenAI에서는 새로운 버전의 Sora도 가까운 미래에 무료 버전과 API로 제공하겠다고 약속했습니다.
지금 제가 가장 하고 싶은 건, 제가 바로 밈을 그릴 수 있도록 도와주는 거예요.