精通控制网、费力地处理修复蒙版以及死记硬背晦涩难懂的快速工程公式的时代已经正式结束。那些需要理解样式参考、LORA 和图像到图像流程的复杂工作流程已被一种非常简单的方式所取代:用简单的英语输入你想要的内容。
随着图像生成器和图像编辑器的融合,理解它们之间的根本区别至关重要。像Flux 1 Dev或Google 的 Imagen 这样的传统生成器都是从无到有地创建图像——通过纯粹的合成将文本提示转化为像素。
另一方面, Flux Kontext 和Nano Banana等图像编辑器的操作方式不同,它们会获取现有图像并根据指令进行修改,同时保留核心元素。
随着模型获得双重功能,界限变得越来越模糊,但底层架构却截然不同。生成器从空白画布开始优化创作自由和美学质量,而编辑器则优先考虑保留现有元素、精确的局部修改以及保持修改之间的一致性。
ChatGPT 凭借其集成的 DALL-E 功能开启了这场革命,将图像编辑功能带入了对话式 AI 的大众视野。其实现方式非常简单——描述你的编辑,然后观察编辑效果。
然而,ChatGPT 的视觉输出严重偏向卡通风格,其结果更像是概念图而非成品。其真实感仍然难以捉摸,因此认真的创作者很快就转向了其他方向。
后来,谷歌推出了 Nano Banana (技术上称为Gemini 2.5 Flash Image) ,整个格局发生了翻天覆地的变化。该模型的角色一致性功能树立了新的标杆,能够以前所未有的精度跨代维护主体身份。突然之间,“优质”图像编辑的标准一飞冲天。
从那时起,人工智能领域涌现出不少新模型,每个模型都有各自的优缺点。如果你想知道哪一个最适合你,请继续阅读。以下是我们对迄今为止最佳图像编辑器的比较、评测和解读,以及你对它们优缺点的解读。
Reve自预览阶段以来经历了彻底的革新。界面的彻底革新反映了方法上的根本性转变——Reve 不再是另一个图像生成器或编辑器,而是像一个擅长视觉任务的 AI 助手一样运行。
该模型的杀手级功能是它能够浏览网页并将现实世界的元素融入到一代代中。
例如,当被要求在一张图片中添加 Google 徽标,然后将其替换为Decrypt的徽标时,Reve 并没有产生近似的幻觉。该模型会搜索网页,找到真正的Decrypt徽标,理解其构图背景,并将其无缝集成到现有图像中。无需手动上传,无需参考图像,也无需向人工智能之神祈祷。
这种网页浏览功能解决了传统模型的一个根本性限制,因为传统模型无法真正浏览网页内容。如果要对每个徽标、短语或公众人物进行训练,就需要获取整个互联网的数据——这是不可能的。Reve 通过按需获取特定信息来避免这个问题,从而确保准确性,而无需庞大的训练数据集。
该模型在艺术多样性方面也表现出色,能够生成多种风格的图像,且精度远超竞争对手。其他模型追求照片级真实感,而 Reve 则致力于最大限度地发挥创意表达。速度依然令人印象深刻,生成和编辑功能的结合也让人感觉真正统一,而非各自为政。
谷歌的Gemini 2.5 Flash 图像(因其在网络社区的昵称而被广泛称为“纳米香蕉” )已成为角色一致性的黄金标准。该模型展现出近乎不可思议的能力,能够理解拍摄对象的特征,并在不同的场景和语境下准确呈现这些特征。
对于任何编辑具有特定特征的照片的人来说,这都是一个典范。传统的人工智能编辑是从头开始创建图像,通过细微的扭曲和不一致,人工智能的干预显而易见。纳米香蕉最大限度地减少了这些明显的痕迹,生成的编辑保留了原始主题的完整性。
该模型的架构注重主体身份的维护,这意味着将同一个角色放置在不同的场景中、从多个角度展示产品或确保品牌资产的一致性变得轻而易举。谷歌集成了视觉推理功能,使模型不仅能够理解要生成什么,还能理解为什么某些元素应该保持一致。
然而,Nano Banana 存在着严重的局限性。审查制度非常严格——即使是涉及卡通动物冲突的简单meme概念也会触发内容警告。谷歌的安全过滤器会将屏蔽的输出计入用户配额,这意味着实验成本很快就会变得昂贵。该模型似乎随机拒绝编辑,有时会拒绝一些根本不符合内容政策的无害请求。
这些限制因素严重影响了创作的灵活性。需要多次迭代或大量创作的用户很快就会达到配额上限,被迫升级到专业版(20 美元)或超级版(250 美元)。有限的输出加上严格的审查制度,让任何想要突破创作界限的人都感到沮丧。
阿里巴巴的Qwen 3 Omni Flash在复杂的多元素场景中表现出色。上传主体图像,添加姿势参考,然后观察模型如何同时解析两种场景。虽然面部特征可能会略有偏移,但该模型能够满足其他模型无法满足的构图要求。
如果您的输入需要来自不同图像的元素,那么它是迄今为止最好的模型
内容限制不如 Nano Banana 严格。该模式在遵循基本安全准则的同时,赋予了比 Google 更大的创作自由。信用分配也更为慷慨——12 小时的冷却时间,而非 Nano Banana 的 24 小时等待时间,意味着更快的迭代周期。
角色一致性仍然是弱点。它确实很棒,但不如 Nano Banana 那样一致。虽然 Qwen 处理复杂场景的能力令人钦佩,但要跨代保持精准的主体身份却颇具挑战性。该模型牺牲了绝对的保真度来换取构图的准确性——对于某些工作流程来说,这是值得的,但对其他工作流程来说,却令人沮丧。
如果您想要完全自主并掌控您的世代,那么本地路线是您的最佳选择。不过要注意:如果您决定亲自动手并托管自己的模型,您将需要一些非常强大的硬件。
Qwen Image Edit是一款适合初学者的本地编辑工具。其自然可靠的编辑功能使其成为多图像工作流程和精细照片调整的理想选择。开源特性意味着您可以完全控制内容和处理,但计算要求(例如高昂的显存和强大的处理能力)限制了其可用性。
质量方面排名第二的是老牌的Flux Kontext 。艺术家们对其在动态场景中的输出质量赞不绝口,尤其是在背景替换和风格转换方面。它运行在 6GB VRAM 显卡上,并进行了大量量化,使其出奇地易于使用,丰富的社区资源为几乎所有可以想象到的工作流程提供了解决方案。
对于爱好者来说,这将是迄今为止最好、最便宜的本地无审查选项。它还能更轻松地整合复杂的工作流程,让用户可以极其精细地控制他们想要对图像进行的更改和编辑。
对于 NSFW 内容或敏感工作流程,本地优势尤为明显。无需 API 限制、无需内容过滤器、无需使用配额——只需纯粹的处理能力决定一切。
就主题一致性而言,它可能并非最准确,尽管一些优秀的快速工程和几次不同的迭代可能会有所帮助。但如果您决定在 ComfyUI 工作流程中本地使用此模型,那么您可能已经足够了解所有插件和资源,这些插件和资源可以使这些模型与 AI 巨头提供的最先进模型一样强大。
因此,通过定制训练的 LoRA、用于面部交换的 ReActor 节点以及一些控制网,您可能会得到与您想象的完全相似的图像。
以下是一些可以更好地展示模型优势和劣势的比较。
视觉输入:
提示:图 2 中的女子正面向镜头,姿势与图 1 中的女子相同。她坐在沙发上。请保留女子的所有面部特征。
输出:
获胜者: Qwen Omni Flash——最擅长管理和准确混合复杂的多元素指令。
视觉输入:
提示:让两个拍摄对象一起摆姿势
输出:
获胜者: Nano Banana——它在保持场景中的主体身份和细节方面无与伦比。
视觉输入:
提示:把这幅画变成一幅史诗般的梵高画。画中的男人沉思着,手里拿着一枚比特币。
输出:
获胜者: Reve——创意、艺术或非文字转换的最佳选择。
视觉输入:
提示:将 google 徽标更改为Decrypt.co 徽标
获胜者: Reve——它特别适合通过按需访问现实世界的参考资料来插入新颖的元素。
Reve 非常适合那些追求多功能性且无需过多技术投入的创意专业人士。其网页浏览功能对于需要精准标识或最新参考资料的品牌工作来说,无疑是一项宝贵的资源。对于注重速度和创意多样性而非绝对写实风格的营销团队、平面设计师和内容创作者来说,Reve 无疑是不可或缺的。
Nano Banana 适用于需要始终保持一致性的流程。产品摄影师需要保持产品目录的一致性,角色设计师需要跨场景的稳定参考,而开发人员则需要构建面向消费者且安全至关重要的应用程序——这些用户为了保持一致性的回报,愿意忍受这些限制。
Qwen Omni Flash 适用于处理复杂、多层次构图的工作室。该模型能够处理多种元素,同时保持合理的生成速度,使其成为概念艺术家、故事板创作者以及任何构建场景而非孤立主题的人员的理想选择。
Flux Kontext 和 Qwen Image Edit 等本地解决方案吸引了具有特定需求的高级用户,或者希望在预算极低甚至零预算的情况下进行大量编辑和迭代的用户。对于需要完全创作控制权的独立艺术家、想要出于“研究目的”编辑图像的人士以及构建专用应用程序的开发者来说,这些用户愿意承担基础设施负担,以获得绝对的自由。
另一个强有力的竞争者是字节跳动的 Seedream v4。它相当有竞争力,有人称赞它是 Nano Banana 的杀手。然而,它没有免费测试的选项,所以我们把它从这份名单中剔除了。
从技术复杂性到自然语言简洁性的转变,使专业图像编辑变得大众化。如今,模型之间的竞争不再基于原始能力,而是专业化,各自在各自擅长的领域开辟出一片天地。那些简单的工程教科书可以退休了。未来将使用简单的语言。