SD3는 SDXL, MidJourney 및 Ideogram과 정면 대결합니다. 어떤 AI 이미지 메이커가 가장 좋나요?

avatar
Decrypt
06-14
이 기사는 기계로 번역되었습니다
원문 표시

Stability AI의 최신 대규모 릴리스인 SD3는 AI 커뮤니티에서 상당한 화제를 불러일으켰습니다. 향상된 신속한 준수, 효율성, 정확성 및 전반적인 품질을 약속하면서 SD3는 이미지 생성의 새로운 기준을 설정하기 위해 어제 출시되었습니다 . 우리는 SD3가 이전 모델인 SDXL은 물론 다른 주요 모델인 MidJourneyIdeogram 과 얼마나 잘 비교되는지 신속하게 살펴보았습니다.

우리의 정면 비교에서는 모델 간의 본질적인 차이로 인해 파격적으로 보일 수 있지만 공정한 싸움을 보장하기 위해 각 모델에 대해 동일한 프롬프트를 사용했습니다. 평가에는 다양한 시나리오가 포함되었으며, 세부적인 예술적 프롬프트와 일상적인 시나리오를 모두 처리하는 모델의 능력을 테스트했습니다. SD3 및 SDXL에 사용된 동일한 시드와 Stable Diffusion 세대에 대한 표준화된 부정적인 프롬프트를 통해 경쟁의 장을 공평하게 만들었습니다.

다양한 이미지 유형에 대한 결과는 다음과 같습니다. 모든 이미지는 SD3(왼쪽 상단), SDXL(오른쪽 상단), MidJourney(왼쪽 하단) 및 Ideogram(오른쪽 하단)의 동일한 순서로 표시됩니다. 우리는 각각에 대해 우리의 의견을 공유할 것이지만 스스로 판단할 수도 있습니다.

프롬프트 : 정글에서 여자를 쫓는 거대 거미의 손으로 그린 ​​그림, 극도로 무섭고 괴로움, 어둡고 소름 끼치는 풍경, 공포, 아날로그 사진 영향의 힌트, 스케치.

SD3와 SDXL은 모두 옛날 만화를 연상시키는 흑백 스타일을 채택했다. 그러나 SD3의 출력은 거미의 다리와 여성의 괴로운 표정과 같은 복잡한 요소를 포착하여 훨씬 더 자세했습니다. MidJourney는 보다 예술적인 접근 방식을 취하여 시각적으로 매력적이면서도 프롬프트의 "손으로 그린" 및 "스케치" 지시문에서 벗어난 생동감 넘치는 일러스트레이션을 제작했습니다. 표의 문자의 해석은 SD3의 문체 접근 방식을 반영했지만 프롬프트에 지정되지 않았고 스케치가 아닌 푸른 색조를 추가했습니다.

정확성 측면에서 SD3와 Ideogram은 거미로부터 도망치는 여성을 정확하게 묘사하여 프롬프트의 내러티브와 밀접하게 일치합니다. 반대로, SDXL과 MidJourney는 여성이 거미에게 접근하는 모습을 부정확하게 보여주었는데, 이는 프롬프트와 모순됩니다. 프롬프트의 스케치 사양을 고려할 때 SD3의 흑백, 매우 상세한 일러스트레이션은 얼굴 디테일이 부족한 Ideogram의 컬러 구성보다 더 정확했습니다.

승자 : SD3.

프롬프트 : 양복을 입은 도마뱀.

SD3는 프롬프트에 충실하면서 양복을 입은 도마뱀의 모습을 정밀하게 묘사했습니다. 도마뱀은 비늘과 파충류의 특징을 갖춘 자연스러운 모습을 유지했으며 잘 재단된 옷에 완벽하게 통합되었습니다. 대조적으로 SDXL, MidJourney 및 Ideogram은 도마뱀을 의인화하여 대신 인간형 도마뱀을 만들었습니다.

SDXL과 MidJourney의 버전은 매우 상세하고 사실적이어서 사진과 비슷했습니다. MidJourney의 출력물은 실제와 같은 질감과 깊이를 갖고 있어 아날로그 사진과 거의 비슷했지만 그런 느낌을 만들어내지는 못했습니다. 표의문자의 초상화는 정치인들이 찍은 공식 사진처럼 대폭 편집되어 세련되고 격식을 갖춘 모습을 보여줍니다. 이러한 출력의 높은 품질에도 불구하고 SD3는 현실감, 신속한 준수 및 정확성이 뛰어나 결과를 가장 믿을 수 있게 만들었습니다.

승자 : SD3.

프롬프트 : 풀밭에 누워 있는 아름다운 여인.

SD3에 뭔가 분명히 문제가 있었습니다.

AI 아트 커뮤니티가 가장 먼저 지적한 것 중 하나는 SD3가 잔디에 누워 있는 사람들의 사진을 생성할 수 없다는 점이었기 때문에 이 프롬프트가 삭제되었습니다. 사실, 이것은 빠르게 밈(meme) 으로 바뀌었습니다 .

SDXL은 상체와 얼굴이 강조된 여성의 상반신 사진을 선보였습니다. MidJourney와 Ideogram은 클로즈업 이미지를 선택했습니다. MidJourney의 결과는 여성의 특징과 주변 잔디의 미세한 디테일을 보여주는 가장 사실적인 결과였습니다. 하지만 보케 효과를 지나치게 강조해 배경은 물론 여성의 신체 일부도 흐리게 만들었다. 표의 문자는 과도한 보케 문제를 피하고 여성의 몸과 잔디의 선명도를 유지했습니다.

SD3의 경우 설명할 수 없는 실패입니다. 실제로 SD3는 잔디뿐만 아니라 어떤 곳에도 "누워 있는" 인간의 이미지를 생성하는 데 어려움을 겪고 있는 것 같습니다. 우리는 사진, 일러스트레이션, 렌더링을 시도했습니다. 우리는 남성, 여성, 노인, 어린이 및 사람과 유사한 모든 것을 생성해 보았습니다. "거짓말하는" 포즈는 그들을 모두 거대한 괴물로 만듭니다.

승자 : SD3를 제외하면 MidJourney와 Ideogram이 동점입니다.

프롬프트 : 미래 지향적인 레스토랑에서 저녁 식사를 하고 있는 남자와 여자, 일러스트레이션, 후기 인상주의, 임파스토.

이 테스트에서는 특정 예술적 움직임을 재현하는 모델의 능력을 평가했습니다. SD3는 임파스토 스트로크를 생성하고 후기 인상주의의 본질을 포착하여 탁월했습니다. SD3의 출력물에서 페인트의 질감과 레이어링이 뚜렷이 나타나 스타일에 대한 깊은 이해를 보여줍니다.

SDXL은 근소한 차이로 2위를 차지했는데, 후기 인상주의 스타일을 성공적으로 모방했지만 뚜렷한 임파스토 기법이 부족했습니다. MidJourney와 Ideogram은 예술적 스타일에 대한 명확한 이해를 보여주지 못하여 프롬프트의 사양과 일치하지 않는 일반적인 일러스트레이션을 생성했습니다.

승자 : SD3.

프롬프트 : 빈센트 반 고흐 스타일의 삽화로 미래 지향적인 레스토랑에서 저녁 식사를 하고 있는 남자와 여자.

SD3는 반 고흐의 독특한 붓놀림과 색상 팔레트를 전체적으로 통합하고 특히 부부의 묘사를 통해 반 고흐의 스타일을 복제하는 강력한 능력을 보여주었습니다. 그 구성은 또한 미래 지향적인 레스토랑을 정확하게 묘사했습니다. SDXL은 사실적인 만화 스타일의 캐릭터와 반 고흐에서 영감을 받은 환경을 혼합하여 긴밀하게 뒤따랐습니다.

MidJourney의 결과물은 일관성이 떨어지고 레스토랑을 묘사하지 못하고 요청된 예술적 스타일이 부족했습니다. 부부는 물속에서 식사를 하고 있는 것으로 나타났는데, 이는 프롬프트에서 벗어났습니다. Ideogram은 반 고흐의 스타일을 모방하려는 시도 없이 식당에 있는 남자와 여자의 솔직한 사진을 제작했습니다.

승자 : SD3.

프롬프트 : 전문적인 사진, 검은색 스웨터를 입은 백인 남성의 클로즈업 초상화 사진, 진지한 얼굴, 극적인 조명, 자연, 우울하고 흐린 날씨, 보케.

SD3는 진지하고 우울한 표정과 블랙 스웨터 의상을 드라마틱한 조명과 얕은 피사계 심도로 효과적으로 포착해 분위기 있고 프로페셔널한 느낌을 연출했다. 구성에는 우울하고 자연스러운 환경이 포함되어 프롬프트와 잘 어울립니다.

SDXL의 출력은 흐린 하늘과 흐린 배경에 나뭇잎이 있는 전통적인 AI 생성 초상화 스타일을 따랐습니다. 그러나 얼굴은 심하게 편집되어 현실적인 결함이 부족한 것으로 나타났습니다. MidJourney 버전은 프롬프트의 자연적인 측면에서 벗어나 따뜻한 색상 팔레트와 도시 배경을 특징으로 합니다.

Ideogram의 구성은 클로즈업 프레임, 검은색 스웨터, 진지한 표현, 우울한 야외 조명, 배경에 약간의 보케를 제공하는 등 모든 기준을 충족했습니다. 모델들 중 가장 사실적인 사진이기도 했습니다.

우승자 : 표의문자.

프롬프트 : "Emerge by 디크립트(Decrypt)"라는 표지판이 있는 미래 도시의 벽 앞에서 포즈를 취하는 여성.

텍스트 생성은 모든 모델에서 어려운 것으로 나타났습니다. 어떤 모델도 "Emerge by 디크립트(Decrypt)"라는 텍스트를 정확하게 렌더링하지 못했습니다. SDXL은 가장 미래 지향적인 도시 경관을 제공했지만 프롬프트에 지정된 모든 요소를 ​​포함하지 못했습니다. SD3는 텍스트가 부정확함에도 불구하고 벽, 표지판 및 도시를 생성하는 데 성공했습니다.

MidJourney는 간판과 도시의 미래적인 분위기, 성벽을 가장 정확하게 표현한 제품이었습니다. 표의 문자는 벽과 도시를 생성했지만 기호는 생략했습니다. 이러한 문제에도 불구하고, 불완전한 텍스트가 있더라도 구성의 모든 핵심 요소를 통합할 수 있는 SD3의 능력이 이 시나리오에서 승자가 되었습니다.

승자 : MidJourney — 그러나 Ideogram은 이미지 전반에 걸쳐 텍스트를 생성하는 데 더 일관적인 경향이 있기 때문에 운이 좋은 세대였습니다.

SD3는 이전 SDXL에 비해 상당한 개선이 이루어졌으며 다양한 시나리오에서 MidJourney 및 Ideogram에 비해 경쟁력 있는 성능을 보여줍니다. SD3는 약속대로 신속한 준수는 물론 디테일과 예술적인 스타일 재현에도 뛰어납니다. SD3는 강력한 기본 모델로서의 잠재력을 입증했습니다.

그러나 특정 위치에 사람을 생성하는 데 있어 엄격한 검열과 당혹스러운 제한은 다른 도구와 함께 사용하는 것이 가장 좋을 수 있음을 시사합니다.

예를 들어 사용자는 SD 1.5, SDXL 또는 Pixart를 사용하여 이미지를 생성한 다음 해당 세대를 인코딩하고 SD3를 사용하여 잡음 제거 샘플러로 보낼 수 있습니다. 이렇게 하면 이미지 생성 프로세스가 SD3로 오프로드되지만 모든 것을 처음부터 생성하는 대신 이전 세대를 참조로 사용합니다. 사용자에게 모델에 영향을 미칠 수 있는 더 많은 옵션을 제공하는 맞춤형 모델이나 Controlnet 또는 LoRA가 없기 때문에 현재로서는 훨씬 더 의미가 있습니다.

현재 상태에서 SD3는 많은 사용 사례에서 SDXL보다 우수하지만 이를 대체하기에는 충분하지 않습니다.

편집자: Ryan Ozawa .

출처
면책조항: 상기 내용은 작자의 개인적인 의견입니다. 따라서 이는 Followin의 입장과 무관하며 Followin과 관련된 어떠한 투자 제안도 구성하지 않습니다.
라이크
2
즐겨찾기에 추가
코멘트