구글은 이른 아침에 새로운 모델을 공개했고, OpenAI는 입만 움직여도 사진을 포토샵으로 편집할 수 있는 GPT-4o를 긴급히 출시했습니다. 네티즌: DeepSeek에 다시 한번 감사드립니다

avatar
36氪
03-26
이 기사는 기계로 번역되었습니다
원문 표시

베이징 시간 3월 26일 새벽, 구글은 최고의 추론 모델이라고 주장하는 제미니(Gemini) Pro 2.5를 출시했으며, 구글 이전에 OpenAI가 먼저 생중계를 통해 GPT-4o 이미지 생성 기술 모델을 발표했습니다. 흥미로운 점은 최근 6개월 동안 기본적으로 구글의 모든 발표가 OpenAI의 생중계와 "충돌"했다는 것입니다.

OpenAI, GPT-4o 출시 - 원시 멀티모달 이미지 생성 기능

OpenAI는 "오늘부터 OpenAI는 새로운 이미지 생성 기능을 ChatGPT에 직접 통합할 것이며, 이 기능을 'ChatGPT의 이미지'라고 부릅니다. 사용자는 이제 ChatGPT 내부에서 GPT-4o로 이미지를 생성할 수 있습니다."라고 밝혔습니다.

이 초기 버전은 이미지 생성에만 중점을 두며, ChatGPT Plus, Pro, Team 및 Free 구독 계층에서 제공됩니다.

주목할 만한 점은 GPT-4o 이미지 생성 토큰화기의 어휘량(실제로 텍스트를 나타내는 고유 정수의 수)이 GPT-4와 GPT-3.5의 약 10만 개에서 약 20만 개로 증가했다는 것입니다. 구자라트어 입력에 사용된 태그는 4.4배 감소했고, 일본어는 1.4배, 스페인어는 1.1배 감소했습니다. 이전에는 영어 이외의 언어가 프롬프트에 포함할 수 있는 텍스트 양에 상당한 비용을 지불해야 했습니다.

가격 또한 주목할 만합니다. OpenAI는 GPT-4 Turbo와 비교해 가격이 50% 감소했다고 주장합니다. 더 직관적인 비교로, GPT-4o의 비용은 GPT-3.5의 정확히 10배입니다. 4o는 백만 입력 토큰당 5달러, 백만 출력 토큰당 15달러입니다. 3.5는 백만 입력 토큰당 0.50달러, 백만 출력 토큰당 1.50달러입니다.

가격 인하는 특히 주목할 만한데, OpenAI가 무료 ChatGPT 사용자에게도 이 모델을 제공하겠다고 약속했기 때문입니다. 이는 그들이 처음으로 비유료 고객에게 "최고" 모델을 직접 제공하는 것입니다.

OpenAI 연구 책임자 Gabriel Goh는 언론과의 인터뷰에서 "이 모델은 이전 모델보다 크게 개선되었다"고 말하며, 팀이 GPT-4o의 "전체 모달" - 텍스트, 이미지, 오디오, 비디오 등 모든 유형의 데이터를 생성할 수 있는 모델 - 을 이 기능의 기반으로 사용했다고 덧붙였습니다.

(이하 생략)

OpenAI가 일부 공식 예시를 공개했습니다.

20대 초반의 두 여성 마녀(한 명은 회색 하이라이트 머리, 다른 한 명은 적갈색 웨이브 긴 머리)가 길표지를 읽고 있는 사실적인 이미지를 생성하세요.

프롬프트:

뉴욕 윌리엄스버그의 한 거리에서, 길표지에는 대량의 상세한 거리 표지판(예: 거리 청소 시간, 주차 허가 요건, 차량 분류, 견인 규칙)이 있으며, 그 사이에는 일부 허구적 정보(합법적인 거리 태그 형식으로 제시)가 포함되어 있습니다. 예를 들어 "C 구역에서는 Sybil어택 빗자루 주차 금지", "마법 카펫 하역은 15분 이내로 허용", "12월 24일부터 25일까지 순록은 허가된 경우에만 일시 정지 가능하며, 위반자는 말썽꾼 명단에 올라갑니다." 길표지는 거리 오른쪽에 위치하며, 내용은 중복되지 않고 표지판은 실제로 복원되어야 합니다.

인물: 한 마녀는 빗자루를 들고, 다른 한 마녀는 말아놓은 마법 카펫을 안고 있습니다. 두 사람은 전경에 있으며, 화면을 등지고 머리를 약간 기울인 채 길표지를 진지하게 보고 있습니다. 배경에서 전경으로의 구도: 거리 + 주차된 차량 + 건물 → 길표지 → 마녀. 인물은 카메라에서 가장 가까운 위치에 있어야 합니다.

다중 라운드 생성

현재 이미지 생성은 GPT-4o의 기본 기능이 되었으므로, 사용자는 자연스러운 대화를 통해 이미지 내용을 최적화할 수 있습니다. GPT-4o는 이미지와 텍스트를 기반으로 채팅 환경에서 구축되어 내용의 일관성을 보장합니다. 예를 들어, 사용자가 전자 게임 캐릭터를 설계하고 있다면, 지속적인 개선 및 실험 과정에서 해당 캐릭터의 외모는 여러 반복에 걸쳐 일관성을 유지할 것입니다.

[이하 생략]

其次,OpenAI는 불량 콘텐츠를 단호하게 차단할 것이라고 밝혔습니다. 아동 성학대 자료 및 딥페이크 포르노 이미지와 같이 콘텐츠 정책을 위반할 수 있는 이미지 생성 요청을 계속 차단할 것입니다. 실제 인물 이미지의 경우, OpenAI는 생성 가능한 이미지에 대한 제한을 강화하고 노출 및 폭력적인 장면에 대해 매우 엄격한 조치를 취할 것입니다. 물론, 안전 업그레이드는 결코 끝나지 않으며 지속적인 투자의 중요한 영역이 될 것입니다.

세 번째, 추론을 통해 안전성을 강화합니다. OpenAI는 인간이 작성한 해석 가능한 안전 규범에 따라 정책의 모호성을 식별하고 해결하는 추론 대규모 모델을 훈련했습니다. ChatGPT와 Sora에서 사용된 멀티모달 안전 기술을 결합하여 기존 정책에 따라 입력 텍스트와 출력 이미지를 유연하게 조정할 수 있습니다.

현재 4o 이미지 생성 기술은 성별 표현의 다양성 면에서 DALL·E 3를 능가하지만, 출력 결과는 여전히 주로 남성 주체에 편향되어 있습니다. 따라서 OpenAI는 향후 작업에서 데이터 균형성을 개선하여 모델을 더욱 공정하게 만들 것이라고 밝혔습니다.

접근 방식 및 출시 시간

ChatGPT의 기본 이미지 생성 도구로서, 4o 이미지 생성 기능은 즉시 Plus, Pro, Team 및 Free 사용자에게 전면 개방됩니다. Enterprise 및 Edu 접근 권한은 후속적으로 개방될 예정입니다. Sora도 이번 기능 업그레이드의 혜택을 받을 수 있습니다. DALL-E를 계속 사용하려는 사용자는 전용 DALL-E GPT를 통해 이 새로운 기능에 액세스할 수 있습니다.

개발자들은 곧 API를 통해 GPT-4o 이미지 생성 기능을 사용할 수 있으며, 접근 권한은 향후 몇 주 내에 개방될 예정입니다.

OpenAI는 전체 이미지 생성 및 사용자 지정 프로세스가 GPT-4o와 채팅하는 것만큼 간단하다고 밝혔습니다. 화면 비율, 16진수 코드를 사용한 정확한 색상 또는 투명 배경 등의 세부 사항을 포함하여 요구 사항을 설명하기만 하면 됩니다. 이 모델은 더 많은 세부 사항이 포함된 이미지를 생성할 수 있으므로 렌더링 시간이 더 길어질 수 있으며, 최대 1분까지 걸릴 수 있습니다.

참고 링크:

https://openai.com/index/introducing-4o-image-generation/

본 기사는 위챗 공식 계정 "AI전선"에서 가져왔으며, 정리: 동매, 36커에서 허가를 받아 게시되었습니다.

출처
면책조항: 상기 내용은 작자의 개인적인 의견입니다. 따라서 이는 Followin의 입장과 무관하며 Followin과 관련된 어떠한 투자 제안도 구성하지 않습니다.
라이크
즐겨찾기에 추가
코멘트