评论:OpenAI 的新图像生成器再次大放异彩

avatar
Decrypt
03-27
本文为机器翻译
展示原文

OpenAI再次领先人工智能图像生成竞赛。

这家科技巨头直接集成了原生图像生成功能

在发布后的几小时内,该模型迅速走红,各种动漫风格的创作充斥社交平台,展示了技术能力远超DALL-E 3。

这个新模型可以轻松与专门的图像生成平台竞争,同时消除传统工作流障碍。

每月20美元的ChatGPT Plus订阅现在提供了一个全面的创意生态系统,这在以前需要多个专业工具和订阅。

我们将该模型与Flux(最佳开源图像生成器)和Reve(最佳闭源图像生成器)进行了比较,以下是我们的发现

提示词:一张高分辨率的夜间城市街道照片,霓虹灯照亮场景,人们在人行道上行走,汽车驶过,街边小贩在卖热狗,灯光在湿润的路面上反射,整体风格超写实,注重细节和光线,一个霓虹灯牌写着"Decrypt"。

我们的城市夜景挑战——需要复杂的光线物理、人群渲染和建筑精确度——揭示了竞争对手之间不同的性能特征。

ChatGPT生成了令人印象深刻的充满活力的环境,霓虹灯牌清晰,在精心渲染的湿润路面上创造出丰富的反射。

虽然在人群动态和元素包含方面表现出色,但轻微的透视不一致有时会暴露其人工合成的本质。

光线也很好,但有时会偏向戏剧性而非自然城市风格。反射不是最好的,但这是只有最挑剔的人才会注意到的。它还生成了除"Decrypt"之外的可读霓虹灯牌,这增加了真实感。

对我们来说,Reve通过出色的光线物理建模获胜,特别是霓虹光源和反射表面之间的微妙互动。

其电影般的构图和氛围元素(蒸汽缕、动态模糊)创造了更高的空间真实性。然而,它减少了人群密度,这是一个聪明的技巧,因为它不必生成太多面孔,这使得难以发现不真实的细节。

系统优先考虑氛围而非字面上的提示词遵循。

Freepik Mystik(Flux)通过不同的视角解读我们的提示词,是偏离写实风格最多的模型。

它混合了亚洲和西方字母,生成了不同的Decrypt标志而不是仅仅一个,并且在人物渲染和空间深度方面遇到技术限制。

其反射表面缺乏ChatGPT所显示的物理准确性。

获胜者:Reve通过出色地渲染复杂的光线交互,勉强获得了写实性桂冠。ChatGPT建立了自己作为非常接近的第二名,特别令人印象深刻的是,它是在更广泛的多模态系统中集成的,而非专门的图像生成器。

来源
免责声明:以上内容仅为作者观点,不代表Followin的任何立场,不构成与Followin相关的任何投资建议。
喜欢
收藏
评论
Followin logo