OpenAI는 GPT-4o의 이미지 생성 기능을 완전히 개방했으며, 이번에는 무료 사용자도 가장 먼저 참여하게 됩니다!
오늘부터 ChatGPT와 Sora의 모든 Plus, Pro, Team, Free 사용자를 대상으로 제공됩니다.
밤새 다양한 테스트 결과가 화면에 쏟아졌습니다. 가장 놀라운 점은 텍스트를 처리할 수 있는 능력입니다.
예를 들어, 4o는 텍스트 내용을 100% 복원하고 텍스트 배치를 지정할 수 있습니다.
남자는 오른손으로 '몇몇'이라는 글자를, 왼손으로 '단어'라는 글자를 들고 있다.
TV 시리즈처럼 캐릭터의 움직임을 바꾸면서 텍스트를 정확하게 생성할 수도 있습니다.
두 사진을 주의 깊게 비교해 보면, 첫 번째 사진의 화이트보드에 비친 남자의 모습이 두 번째 사진과 일치합니다.
어젯밤, OpenAI가 갑자기 GPT-4.5 출시를 위한 소규모 라이브 방송을 개최한다고 발표했고 , 이번에는 울트라맨이 등장했습니다(이전 스토리: 그는 아이들을 돌봐야 하기 때문에 GPT-4.5 출시에 참석하지 않았습니다).
라이브 방송에서는 밈 만들기, 텍스트 렌더링, 다중 라운드 상호작용 생성, 명령 따르기 등 다양한 플레이 방법이 시연되었습니다.
그 자리에서 셀카를 찍고 바로 애니메이션 스타일로 전환하세요.
그런데 그 공무원은 밈 사진도 찍어서 사람들에게 사진에 "아기를 느껴보세요"라는 문구를 넣어 달라고 부탁하기도 했습니다. (예, 생성 시 소문자를 더 적절한 대문자로 변경하는 방법도 알고 있습니다)
이제 ChatGPT를 열고 이러한 기능을 사용해보세요.
실제 생성 속도는 매우 빠르지만(10초에 하나 정도) 일반 사용자는 하루에 3번만 체험할 수 있습니다.
API는 향후 몇 주 동안 점진적으로 출시될 예정입니다.
이번 웨이브는 아름답고 실용적인 것에 초점을 맞춥니다.
우리는 마침내 진정으로 통합된 멀티모달 모델로 옮겨가고 있습니다.
공식 소개에 따르면, 멀티모달 모델인 4o는 마침내 퍼즐의 중요한 조각인 이미지 생성을 완성했습니다.
그리고 가장 중요한 점은 아름다움 과 실용성 입니다.
더 이상 미루지 말고 해당 기능 업그레이드의 구체적인 성능을 살펴보겠습니다.
기능의 주요 업그레이드
첫째, OpenAI에 따르면 4o는 이제 기호와 이미지를 정확하게 융합할 수 있다고 합니다.
예를 들어, 텍스트 한 개만 입력하면 아름답게 만들어진 메뉴를 생성할 수 있습니다.
또한 여러 차례의 대화 중에 이미지 내용과 스타일을 점진적으로 조정할 수 있도록 지원합니다.
다음과 유사하게 고양이 원본 사진을 제공한 다음 단계별로 게임 캐릭터를 만들어 보세요.
또한, 세부 사항에도 많은 관심을 기울입니다. 관계자는 40은 최대 10~20개의 다양한 물체를 처리할 수 있는 반면, 다른 모델은 일반적으로 5~8개의 물체를 처리하는 데 어려움을 겪는다고 밝혔습니다.
위에 언급한 것 외에도 4o는 사실적인 이미지를 생성하는 데도 좋은 성능을 발휘합니다.
"모방범"(doge)의 실제 버전도 있습니다.
네티즌들이 테스트한 결과
공식 홍보효과를 보고 네티즌들도 금세 실제 테스트 열풍에 휩싸였다~
고전적인 밈 사진이 처음으로 적용되었는데, 사진이 전혀 어색하지 않네요 hhh.
동일한 쓰기 패턴을 재현하는 것도 문제가 없습니다.
하나 더
그런데 지난 이틀은 DeepSeek, OpenAI, Google이 같은 무대에서 거의 경쟁을 벌이는 등 매우 활기찼습니다.
어젯밤 11시(베이징 시간)에 OpenAI가 갑자기 소규모 릴리스가 있을 것이라고 발표했고 DeepSeek에서 DeepSeek-v3-0324의 공식 기술 보고서가 공개되었다는 점을 언급할 가치가 있습니다.
이게 DS 때문에 강제로 새로 출시된 걸까요? (총독)
참조 링크
[1] https://openai.com/index/introducing-4o-image-generation/
[2] https://x.com/chatgpt21/상태/1904683763914674208
본 기사는 위챗 공개 계정 "Quantum位" 에서 발췌한 것이며, 저자는 이수이이고, 36氪의 허가를 받아 출판되었습니다.