AI의 선두주자인 OpenAI가 오늘 이미지 생성 도구의 세 번째 버전인 DALL-E의 최신 프리뷰 버전을 새롭게 출시했습니다. 뿐만 아니라 DALL-E 3는 ChatGPT와 통합되어 사용자가 ChatGPT를 사용하여 프롬프트를 생성하고 더 많은 보안 옵션을 포함할 수 있습니다.
이러한 이유로 OpenAI의 CEO인 샘 알트먼(Sam Altman)도 직접 이 제품을 지지하며 "DALL-E 3는 정말 놀랍습니다.
하룻밤 사이에 얼마나 많은 디자이너가 만족하고 얼마나 많은 디자이너가 슬퍼했는지 모릅니다.
01 인공지능 페인팅의 지각변동, DALL-E 3가 출시되었습니다!
이전 버전과 마찬가지로 DALLE-3는 텍스트 생성 이미지 툴로, 자연어 프롬프트를 사용하여 새로운 이미지를 생성할 수 있습니다.
"DALL-E 3는 이전 시스템보다 훨씬 더 많은 뉘앙스와 디테일을 이해하므로 아이디어를 매우 정확한 이미지로 쉽게 변환할 수 있습니다."라고 OpenAI는 공식 웹사이트를 통해 DALL-E 3를 소개했습니다.
공식 예시에서 OpenAI는 동일한 큐 단어를 사용하여 DALL-E 3와 DALL-E 2의 서로 다른 효과를 공유했습니다:
이 글을 읽은 많은 네티즌들은 DALL-E 2는 추상적인 반면, DALL-E 3는 인상적이고 현실에 기반하며 디테일을 더 효과적으로 다듬을 수 있어 결과물이 더 사실적이고 매력적이라는 반응을 보였습니다.
이것이 DALL-E 3의 첫 번째 개선점이라면, 두 번째는 최신 DALL-E 3는 사용자가 프롬프트 엔지니어링을 배우지 않아도 다른 어떤 모델보다 맥락을 더 잘 이해하는 이미지 모델을 합성할 수 있다는 점입니다.
공식 예시에서 사용자는 보름달, 밤문화를 즐기는 보행자, 젊은 여성, 빨간 머리, 흥정하는 심술쟁이 노인, 키 크고 늙은 남자 ..... 같은 간단한 단어 몇 개만 상상하기만 하면 됩니다.
단서 단어 임계값 제한 없이 DALL-E 3를 사용하면 아래와 같은 사진을 얻을 수 있습니다:
그렇다면 어떻게 이런 사진을 얻을 수 있을까요?
이 글의 서두에서 언급했듯이, DALL-E 3는 ChatGPT에 "기본적으로 내장" 되어 있으며, 앞으로 ChatGPT Plus의 통합 기능으로 출시되어 AI 비서와 브레인스토밍 파트너로서 이미지를 대화식으로 개선할 수 있게 될 것입니다.
이는 또한 ChatGPT가 현재 대화의 맥락에 따라 이미지를 생성할 수 있게 되어 새로운 기능으로 이어질 수 있음을 의미합니다.
예를 들어 ChatGPT 대화 창을 열 때를 생각해 보세요.
"다섯 살짜리 아들이 계속 "슈퍼 해바라기 고슴도치"라고 말하는데 어떻게 생겼어요?"라고 질문합니다.
ChatGPT는 사용자가 말하는 대로 답을 제공합니다:
질문: "제 딸이 래리라고 하는데, 더 닮은 것을 보여줄 수 있나요?"
ChatGPT:
Q: 딸아이가 좋아할 거예요! 래리의 집을 보여줄 수 있나요?
ChatGPT 쇼:
Q: 래리가 "친절한" 사람인지 말해줄 수 있나요?
ChatGPT:
현재 DALL-E 3의 경쟁작인 Midjourney는 사실적인 디테일을 잘 렌더링하지만 원하는 이미지를 얻으려면 여전히 신호를 수정하고 최적화해야 합니다.
디자이너가 아이디어를 구체화하고 디자인을 표현하는 데 도움을 주는 ChatGPT와 디자이너의 손을 자유롭게 해주는 DALL-3의 조합은 OpenAI 사용자들에게도 큰 잠재력을 가져다 줄 것입니다.
02 잠재적 위험을 차단하는 OpenAI
그러나 2021년 1월 DALL-E 출시와 2022년 4월 OpenAI의 DALL-E 2 출시 이후, 후자는 주로 데이터 세트의 학습과 정보 큐잉이 필요한 잠재 확산 모델링(ldm) 기술을 채택하여 GAN(생성적 적대 네트워크)의 지각 능력, 확산 모델의 세부 보존 능력, Transformer의 시맨틱 기능을 결합했다는 점도 주목해야 합니다. Transformer의 시맨틱 기능으로 더 나은 품질의 초상화를 만들 수 있습니다.
업계에서 안정적 확산과 같은 기법을 사용하는 개발자가 적지 않습니다.
그러나 인간이 제작한 대규모 아트웍 데이터 세트를 학습에 활용하여 이미지 개념 등을 학습하는 이 방식은 자연스럽게 저작권과 윤리에 대한 논란을 불러일으켰고, 작년에도 많은 아티스트들이 여러 플랫폼에서 AI가 제작한 아트웍이 자신의 창작 스타일을 비윤리적으로 모방한다고 비판하며 이에 항의하는 시위를 벌이기도 했습니다.
이러한 논란에 대해 OpenAI는 공식 블로그를 통해 DALL-E 3는 살아있는 아티스트의 스타일로 이미지를 사용하라는 요청을 거부하도록 설계되었다고 밝혔습니다. 또한 OpenAI는 크리에이터가 다음을 수행할 수 있는 양식(https://share.hsforms.com/1_OuT5tfFSpic89PqN6r1CQ4sk30)을 제공했습니다. 향후 모델 학습에 자신의 이미지를 사용하지 않도록 선택할 수 있습니다.
또한 OpenAI는 최근 AI 시스템의 결함과 위험을 선제적으로 식별하기 위해 외부 인력을 영입하는 것을 목표로 하는 '레드팀' 네트워크의 멤버를 전 세계적으로 모집한다고 발표했습니다.
OpenAI는 DALL-E 3 개발 차원에서 레드팀 멤버들과 협력하여 DALL-E 3 시스템이 공인의 이름이 포함된 이미지 생성 요청을 거부하도록 설정하고, 키워드 및 이미지 감지 필터를 구현하여 사용자가 폭력, 성적 또는 혐오 콘텐츠를 생성할 수 없도록 제한하여 잠재적 위험을 식별하고 위험 영역을 개선했다고 설명했습니다. 잠재적 위험을 완화하여 위험 영역의 보안 수준을 높입니다.
또한, OpenAI는 이미지가 DALL-E 3에 의해 생성되었는지 여부를 식별하는 데 도움이 되는 '출처 분류기' 도구를 실험하고 있다고 밝혔습니다. 그러나 이와 관련하여 이미 AI 탐지 도구를 사용해 본 많은 사용자들은 AI 이미지를 현실적으로 탐지하는 것은 불가능에 가깝다고 생각합니다.
03 DALL-E 3와 미드저니
사실 AIGC 도구 및 콘텐츠에 대한 규제 정책, 법규, 윤리 강령 및 기타 표준이 부재하기 때문에 다양한 도구의 구현에는 당연히 장단점이 존재합니다.
하지만 기술적 관점에서 볼 때, DALL-E 3는 AIGC 도구의 또 다른 도약을 의미할 수 있을까요? MattGarcia.eth라는 사용자가 OpenAI의 공식 웹사이트에서 DALL-E 3와 동일한 프롬프트를 사용하여 Midjourney 버전을 생성했는데, 이 두 가지가 서로 어떻게 비교되는지 살펴봅시다:
"치료사의 의자에 앉아 '속이 공허하다'고 말하는 아보카도의 그림으로, 가운데 구덩이만한 구멍이 뚫려 있습니다. 치료사는 숟가락을 들고 메모를 낙서하고 있습니다."
"이 그림은 반투명 유리로 만든 사람의 심장이 무서운 파도 한가운데 받침대 위에 서 있는 모습을 묘사한 그림입니다. 햇빛이 구름을 뚫고 이 심장을 비추며 그 안에 있는 작은 우주를 드러내고 있습니다. 수평선에는 '마음속의 우주를 찾아보세요'라는 굵은 글귀가 새겨져 있습니다. "
"아늑한 거실에는 생동감 넘치는 노란색 바나나 모양의 소파가 놓여 있고, 그 곡선이 다채로운 쿠션 더미를 받치고 있습니다. 나무 바닥에 무늬가 있는 러그가 화려함을 더하고 화분이 구석에 놓여 창밖으로 뻗어 있습니다. 창문으로 햇살이 들어옵니다."
"폭풍우를 뚫고 배를 조종하는 늙은 선장의 모습이 섬세한 유화로 그려져 있습니다. 그의 풍화된 얼굴에는 바닷물이 튀고 그의 눈은 결연한 의지로 가득 차 있습니다. 머리 위에는 소용돌이치는 구름이 보이고 성난 파도가 익사할 것 같은 위협을 가합니다 ......"
"어린 고슴도치가 작은 발로 수박 한 조각을 잡고 눈을 감고 행복하게 한 입 베어 물고 있는 수묵 스케치 스타일의 일러스트레이션."
"미세한 선과 약간의 수채화적 기발함으로 그려진 오래된 식물 그림으로, 비너스 파리채와 교차된 이상한 백합이 꽃잎이 의심하지 않는 벌레를 잡을 준비가 되어 있는 모습을 묘사했습니다."
"다양한 육류로 이루어진 광활한 풍경이 눈앞에 펼쳐집니다. 부드럽고 육즙이 풍부한 로스트 비프 산, 닭다리 나무, 베이컨 강, 햄 바위가 초현실적이고 군침이 도는 장면을 연출합니다. 하늘은 페퍼로니 태양과 살라미 구름으로 장식되어 있습니다."
"리치에서 영감을 받은 구형 의자의 사진은 열대 벽지를 배경으로 한 흰색 외관과 고급스러운 내부를 특징으로 합니다."
"농구 선수가 덩크슛을 하는 장면을 표현한 유화는 성운이 폭발하는 것처럼 묘사되어 있습니다."
"소라게의 껍질과 모래의 질감의 디테일이 돋보이는 젖은 모래 위에 둥지를 튼 소라게의 클로즈업 사진."
"보름달의 은은한 빛이 점점이 비치는 소박한 숲을 배경으로 의인화된 단풍잎으로 구성된 포크 밴드가 각각 전통 블루그래스 음악을 연주하는 2D 애니메이션."
두 악기 중 누가 더 낫다고 생각하시나요?
마지막으로, DALL-E 3는 현재 대중에게 공개되지 않았으며, OpenAI는 "DALL-E는 현재 프리뷰 단계에 있으며 향후 10월 초에 ChatGPT Plus 및 기업 고객에게 제공될 예정"이라고 밝혔습니다.
이 글은 WeChat 공개 번호 "CSDN"(ID: CSDNnews), 36 Krypton의 허가를 받아 게시되었습니다.