Stability AI 的最新重大发布 SD3 在 AI 社区引起了不小的轰动。SD3 承诺将提高及时遵守性、效率、准确性和整体质量, 并于昨天上线,希望在图像生成方面树立新的标杆。我们很快就开始着手了解 SD3 与其前身 SDXL 以及其他领先模型MidJourney和Ideogram相比表现如何。
为了确保公平竞争,我们对每个模型使用了相同的提示,尽管由于模型之间的内在差异,这可能看起来不太常规。评估包括各种场景,测试模型处理详细的艺术提示和日常场景的能力。由于 SD3 和 SDXL 使用相同的种子,而稳定扩散生成使用标准化的负面提示,因此竞争环境是公平的。
以下是我们对各种图像类型的结果。所有图像都按相同顺序呈现:SD3(左上)、SDXL(右上)、MidJourney(左下)和 Ideogram(右下)。我们将分享我们对每种图像的看法,但您也可以自行判断。
提示:手绘插图,描绘了一只巨大的蜘蛛在丛林中追逐一个女人,极度恐怖、痛苦、黑暗和令人毛骨悚然的场景、恐怖、暗示模拟摄影的影响、素描。
SD3 和 SDXL 都采用了黑白风格,让人想起旧漫画。然而,SD3 的输出更加详细,捕捉到了蜘蛛腿和女人苦恼表情等复杂元素。MidJourney 采取了更艺术化的方法,制作了一幅生动的插图——虽然视觉上很吸引人——但偏离了提示的“手绘”和“草图”指令。Ideogram 的解释反映了 SD3 的风格方法,但添加了提示中未指定的蓝色色调,也不是草图。
在准确性方面,SD3 和 Ideogram 正确地描绘了女人逃离蜘蛛的场景,与提示的叙述非常吻合。相反,SDXL 和 MidJourney 不准确地描绘了女人接近蜘蛛的场景,这与提示相矛盾。考虑到提示对草图的指定,SD3 的黑白、高度详细的插图比 Ideogram 的彩色构图更准确,后者缺乏面部细节。
获胜者:SD3。
提示:一只穿着西装的蜥蜴。
SD3 精确描绘了一只穿着西装的蜥蜴,与提示非常吻合。蜥蜴保留了其自然的外观,具有鳞片和爬行动物的特征,与剪裁精良的西装无缝融合。相比之下,SDXL、MidJourney 和 Ideogram 将蜥蜴拟人化,而是创造了人形蜥蜴。
SDXL 和 MidJourney 的版本非常详细和逼真,类似于照片。MidJourney 的输出具有逼真的纹理和深度,几乎类似于模拟摄影,但没有生成西装。Ideogram 的肖像经过大量编辑,类似于政客拍摄的官方照片,具有精致和正式的外观。尽管这些输出质量很高,但 SD3 在真实性、及时性和准确性方面表现出色,使其结果最令人信服。
获胜者:SD3。
提示:一位美丽的女人躺在草地上。
SD3 显然出了问题。
这个题目之所以被选中,是因为 AI 艺术社区首先注意到的一件事就是 SD3 无法生成人们躺在草地上的照片。事实上,这很快就变成了一个meme。
SDXL 展示了一张女子的半身照,重点突出了她的上半身和脸部。MidJourney 和 Ideogram 则选择了特写照片。MidJourney 的效果最为逼真,展现了女子面部和周围草地的精细细节。然而,它过分强调了散景效果,不仅模糊了背景,还模糊了女子身体的某些部分。Ideogram 避免了过度散景问题,保持了女子身体和草地的清晰度。
至于 SD3,这是一个令人费解的失败。事实上,SD3 似乎很难生成人类“躺”在草地上的图像,而且很难生成任何物体上的图像。我们尝试了照片、插图、渲染。我们尝试生成男人、女人、老人、孩子以及任何类似于人的东西。“躺着”的姿势把他们都变成了巨大的怪物。
获胜者:由于 SD3 被淘汰,MidJourney 与 Ideogram 打成平手。
提示:一男一女在一家未来主义餐厅吃晚餐,插图,后印象派,厚涂画法。
这项测试评估了模型再现特定艺术动作的能力。SD3 表现出色,能够产生厚涂笔触并捕捉后印象派的精髓。SD3 输出的颜料纹理和层次感非常明显,展现了对这种风格的深刻理解。
SDXL 紧随其后,成功模仿了后印象派风格,但缺乏明显的厚涂技术。MidJourney 和 Ideogram 并未展示出对艺术风格的清晰理解,制作的插图一般,不符合提示的规格。
获胜者:SD3。
提示:一个男人和一个女人在一家未来主义风格的餐厅里吃晚餐,插图采用文森特·梵高风格。
SD3 表现出了对梵高风格的强大复制能力,将梵高独特的笔触和色调融入其中,尤其是对这对夫妇的描绘。构图也准确地描绘了一家未来主义餐厅。SDXL 紧随其后,将逼真的漫画风格人物与梵高风格的环境融合在一起。
MidJourney 的作品缺乏连贯性,没有描绘餐厅,也缺乏要求的艺术风格。这对夫妇似乎在水中用餐,这与提示背道而驰。Ideogram 制作了一张餐厅里一男一女的简单照片,没有试图模仿梵高的风格。
获胜者:SD3。
提示:专业照片,白人男子的特写肖像照片,身穿黑色毛衣,严肃的面部表情,戏剧性的灯光,自然,阴沉,多云的天气,散景。
SD3 有效地捕捉到了严肃、阴郁的表情和黑色毛衣装扮,采用了戏剧性的灯光和浅景深,营造出一种忧郁、专业的外观。构图包括一个阴郁的自然环境,与提示非常吻合。
SDXL 的输出遵循了传统的 AI 生成肖像风格,背景模糊,天空阴云密布,树叶成片。然而,脸部看起来经过大量编辑,缺乏真实的瑕疵。MidJourney 的版本采用了暖色调和城市背景,偏离了提示的自然方面。
Ideogram 的构图符合所有标准,特写取景、黑色毛衣、严肃的表情、阴暗的户外灯光和背景中的一丝散景。这也是模特中最真实的照片。
获胜者:表意文字。
提示:一名女子在未来城市的一面墙前摆姿势,墙上挂着一块牌子,上面写着“通过Decrypt出现”。
文本生成对所有模型来说都具有挑战性。没有一个模型能够准确地渲染文本“Emerge by Decrypt”。SDXL 提供了最具未来感的城市景观,但未能包含提示中指定的所有元素。SD3 成功生成了墙壁、标志和城市——尽管文本不准确。
MidJourney 是最准确的一款,它制作出了标志、城市的未来主义氛围和城墙。Ideogram 生成了城墙和城市,但省略了标志。尽管存在这些问题,但 SD3 能够整合构图的所有关键元素,即使文本不完美,也让它成为了这一场景中的赢家。
获胜者:MidJourney——但这是幸运的一代,因为 Ideogram 在整体上更倾向于在图像中生成文本。
SD3 比其前身 SDXL 有显著改进,在各种场景中与 MidJourney 和 Ideogram 相比具有竞争性能。正如承诺的那样,SD3 在快速遵守方面表现出色,并且在细节和艺术风格再现方面也表现出色。SD3 已证明其作为强大基础模型的潜力。
然而,其严格的审查制度和在培养特定职位人员方面令人困惑的局限性表明,它最好与其他工具结合使用。
例如,用户可能希望使用 SD 1.5、SDXL 或 Pixart 生成图像,然后对这些生成图像进行编码,并将它们发送到使用 SD3 的降噪采样器。这会将图像创建过程转移到 SD3,但会使用上一代图像作为参考,而不是从头开始生成所有内容。目前这更有意义,因为没有自定义模型,甚至没有 Controlnets 或 LoRA 来为用户提供更多影响模型的选项。
目前,SD3 在很多用例中都比 SDXL 更好 - 但还不足以取代它。
由Ryan Ozawa编辑。




