SD3 與 SDXL、MidJourney 和 Ideogram 正面交鋒——哪款 AI 圖像製作器最好？

06-14

本文為機器翻譯

展示原文

Stability AI 的最新重大發布 SD3 在 AI 社區引起了不小的轟動。SD3 承諾將提高及時遵守性、效率、準確性和整體質量，並於昨天上線，希望在圖像生成方面樹立新的標杆。我們很快就開始著手瞭解 SD3 與其前身 SDXL 以及其他領先模型MidJourney和Ideogram相比表現如何。

為了確保公平競爭，我們對每個模型使用了相同的提示，儘管由於模型之間的內在差異，這可能看起來不太常規。評估包括各種場景，測試模型處理詳細的藝術提示和日常場景的能力。由於 SD3 和 SDXL 使用相同的種子，而穩定擴散生成使用標準化的負面提示，因此競爭環境是公平的。

以下是我們對各種圖像類型的結果。所有圖像都按相同順序呈現：SD3（左上）、SDXL（右上）、MidJourney（左下）和 Ideogram（右下）。我們將分享我們對每種圖像的看法，但您也可以自行判斷。

提示：手繪插圖，描繪了一隻巨大的蜘蛛在叢林中追逐一個女人，極度恐怖、痛苦、黑暗和令人毛骨悚然的場景、恐怖、暗示模擬攝影的影響、素描。

SD3 和 SDXL 都採用了黑白風格，讓人想起舊漫畫。然而，SD3 的輸出更加詳細，捕捉到了蜘蛛腿和女人苦惱表情等複雜元素。MidJourney 採取了更藝術化的方法，製作了一幅生動的插圖——雖然視覺上很吸引人——但偏離了提示的“手繪”和“草圖”指令。Ideogram 的解釋反映了 SD3 的風格方法，但添加了提示中未指定的藍色色調，也不是草圖。

在準確性方面，SD3 和 Ideogram 正確地描繪了女人逃離蜘蛛的場景，與提示的敘述非常吻合。相反，SDXL 和 MidJourney 不準確地描繪了女人接近蜘蛛的場景，這與提示相矛盾。考慮到提示對草圖的指定，SD3 的黑白、高度詳細的插圖比 Ideogram 的彩色構圖更準確，後者缺乏面部細節。

獲勝者：SD3。

提示：一隻穿著西裝的蜥蜴。

SD3 精確描繪了一隻穿著西裝的蜥蜴，與提示非常吻合。蜥蜴保留了其自然的外觀，具有鱗片和爬行動物的特徵，與剪裁精良的西裝無縫融合。相比之下，SDXL、MidJourney 和 Ideogram 將蜥蜴擬人化，而是創造了人形蜥蜴。

SDXL 和 MidJourney 的版本非常詳細和逼真，類似於照片。MidJourney 的輸出具有逼真的紋理和深度，幾乎類似於模擬攝影，但沒有生成西裝。Ideogram 的肖像經過大量編輯，類似於政客拍攝的官方照片，具有精緻和正式的外觀。儘管這些輸出質量很高，但 SD3 在真實性、及時性和準確性方面表現出色，使其結果最令人信服。

獲勝者：SD3。

提示：一位美麗的女人躺在草地上。

SD3 顯然出了問題。

這個題目之所以被選中，是因為 AI 藝術社區首先注意到的一件事就是 SD3 無法生成人們躺在草地上的照片。事實上，這很快就變成了一個meme。

SDXL 展示了一張女子的半身照，重點突出了她的上半身和臉部。MidJourney 和 Ideogram 則選擇了特寫照片。MidJourney 的效果最為逼真，展現了女子面部和周圍草地的精細細節。然而，它過分強調了散景效果，不僅模糊了背景，還模糊了女子身體的某些部分。Ideogram 避免了過度散景問題，保持了女子身體和草地的清晰度。

至於 SD3，這是一個令人費解的失敗。事實上，SD3 似乎很難生成人類“躺”在草地上的圖像，而且很難生成任何物體上的圖像。我們嘗試了照片、插圖、渲染。我們嘗試生成男人、女人、老人、孩子以及任何類似於人的東西。“躺著”的姿勢把他們都變成了巨大的怪物。

獲勝者：由於 SD3 被淘汰，MidJourney 與 Ideogram 打成平手。

提示：一男一女在一家未來主義餐廳吃晚餐，插圖，後印象派，厚塗畫法。

這項測試評估了模型再現特定藝術動作的能力。SD3 表現出色，能夠產生厚塗筆觸並捕捉後印象派的精髓。SD3 輸出的顏料紋理和層次感非常明顯，展現了對這種風格的深刻理解。

SDXL 緊隨其後，成功模仿了後印象派風格，但缺乏明顯的厚塗技術。MidJourney 和 Ideogram 並未展示出對藝術風格的清晰理解，製作的插圖一般，不符合提示的規格。

獲勝者：SD3。

提示：一個男人和一個女人在一家未來主義風格的餐廳裡吃晚餐，插圖採用文森特·梵高風格。

SD3 表現出了對梵高風格的強大複製能力，將梵高獨特的筆觸和色調融入其中，尤其是對這對夫婦的描繪。構圖也準確地描繪了一家未來主義餐廳。SDXL 緊隨其後，將逼真的漫畫風格人物與梵高風格的環境融合在一起。

MidJourney 的作品缺乏連貫性，沒有描繪餐廳，也缺乏要求的藝術風格。這對夫婦似乎在水中用餐，這與提示背道而馳。Ideogram 製作了一張餐廳裡一男一女的簡單照片，沒有試圖模仿梵高的風格。

獲勝者：SD3。

提示：專業照片，白人男子的特寫肖像照片，身穿黑色毛衣，嚴肅的面部表情，戲劇性的燈光，自然，陰沉，多雲的天氣，散景。

SD3 有效地捕捉到了嚴肅、陰鬱的表情和黑色毛衣裝扮，採用了戲劇性的燈光和淺景深，營造出一種憂鬱、專業的外觀。構圖包括一個陰鬱的自然環境，與提示非常吻合。

SDXL 的輸出遵循了傳統的 AI 生成肖像風格，背景模糊，天空陰雲密佈，樹葉成片。然而，臉部看起來經過大量編輯，缺乏真實的瑕疵。MidJourney 的版本採用了暖色調和城市背景，偏離了提示的自然方面。

Ideogram 的構圖符合所有標準，特寫取景、黑色毛衣、嚴肅的表情、陰暗的戶外燈光和背景中的一絲散景。這也是模特中最真實的照片。

獲勝者：表意文字。

提示：一名女子在未來城市的一面牆前擺姿勢，牆上掛著一塊牌子，上面寫著“通過Decrypt出現”。

文本生成對所有模型來說都具有挑戰性。沒有一個模型能夠準確地渲染文本“Emerge by Decrypt”。SDXL 提供了最具未來感的城市景觀，但未能包含提示中指定的所有元素。SD3 成功生成了牆壁、標誌和城市——儘管文本不準確。

MidJourney 是最準確的一款，它製作出了標誌、城市的未來主義氛圍和城牆。Ideogram 生成了城牆和城市，但省略了標誌。儘管存在這些問題，但 SD3 能夠整合構圖的所有關鍵元素，即使文本不完美，也讓它成為了這一場景中的贏家。

獲勝者：MidJourney——但這是幸運的一代，因為 Ideogram 在整體上更傾向於在圖像中生成文本。

SD3 比其前身 SDXL 有顯著改進，在各種場景中與 MidJourney 和 Ideogram 相比具有競爭性能。正如承諾的那樣，SD3 在快速遵守方面表現出色，並且在細節和藝術風格再現方面也表現出色。SD3 已證明其作為強大基礎模型的潛力。

然而，其嚴格的審查制度和在培養特定職位人員方面令人困惑的侷限性表明，它最好與其他工具結合使用。

例如，用戶可能希望使用 SD 1.5、SDXL 或 Pixart 生成圖像，然後對這些生成圖像進行編碼，並將它們發送到使用 SD3 的降噪採樣器。這會將圖像創建過程轉移到 SD3，但會使用上一代圖像作為參考，而不是從頭開始生成所有內容。目前這更有意義，因為沒有自定義模型，甚至沒有 Controlnets 或 LoRA 來為用戶提供更多影響模型的選項。

目前，SD3 在很多用例中都比 SDXL 更好 - 但還不足以取代它。

由Ryan Ozawa編輯。