谷歌发布 Nano Banana 2:人工智能图像生成的新王者?

avatar
Decrypt
02-27
本文为机器翻译
展示原文

谷歌最近发布人工智慧软体的速度令人惊叹。仅在过去一周左右的时间里,我们就看到了Gemini 3.1、 Lyria和 Pali,其中 Pali 的照片拍摄功能大受欢迎。而现在,去年最热门的影像生成软体之一的后续版本也已问世。

Google在周四发布的 Nano Banana 2 “将Gemini Flash 的高速智能引入视觉生成领域,从而实现了快速编辑和迭代,”谷歌在一篇官方博客文章中表示,并补充说,“它使曾经仅限 Pro 用户使用的功能能够惠及更广泛的用户群体。”

简单来说,最初的 Nano Banana 实际上名为Gemini 2.5 Flash Image,它本质上就是一个基于Gemini 2.5 Flash 的图像生成器。后来推出了 Nano Banana Pro,也就是Gemini 3 Pro Image,并在去年 11 月发布后迅速成为 AI 影像编辑领域的标竿。

Nano Banana 2 的技术版本实际上是Gemini 3.1 Flash Image——所以它并非 Pro 的直接续作,而更像是原版的重大升级版,现在运行在更新的Gemini 3 Flash 核心上。是不是有点绕?没错。

这里的概念很简单:保留 Nano Banana Pro 的所有优点,并使其以 Flash 的速度运作。

全新 Nano Banana 2 今天起在 Google 生态系统中全面推出。在Gemini应用程式中,它将取代 Nano Banana Pro,成为 Fast、Thinking 和 Pro 三种型号的预设人工智慧工具。 Google AI Pro 和 Ultra 订阅用户仍可透过三点选单重新启用 Nano Banana Pro,用于执行特定任务。

SynthID 也已在 Google 搜寻的 AI 模式和 Lens 中上线,可透过 AI Studio 中的Gemini API 和 Vertex AI 预览版使用,并且是 Flow 中新的预设影像生成模型,所有用户均可免费使用。 Google 也正在扩展 SynthID 浮水印功能,并添加 C2PA 内容凭证支持,以便为平台提供更好的工具来识别 AI 生成的媒体。自去年 11 月以来,SynthID 验证功能已被使用超过 2,000 万次

最大的亮点在​​于其丰富的全球知识。 Nano Banana 2 能够在影像生成过程中即时检索网路讯息,这意味著它可以精准地渲染特定物件。无论是标志、地标、近期事件还是品牌标识,它都能准确识别,因为它能够进行即时搜索,而不仅仅是依靠训练资料进行猜测。

文字渲染功能也得到了显著提升。现在,无论是在提示中手动输入,还是让模型根据上下文自动生成文本,您都可以在图像中生成准确清晰的文本。此外,它还支援图像内翻译,因此您无需从头开始重建图像,即可将广告活动在地化为多种语言。

主体一致性也在不断拓展。据谷歌称,该模型最多可以保持五个主体之间的角色相似性,并在单一工作流程中保持多达 14 个物件的视觉保真度。这对任何建构叙事、故事板或打造统一品牌资产的人来说都意义重大。

在制作方面,它支援从 512px 到 4K 的所有分辨率,并原生支援多种宽高比。指令执行也比之前的 Flash 版本更精准,这意味著在实际操作中,那些模棱两可的提示会减少,而真正能准确执行你要求的提示则会更多。

现在,推理过程也可以配置了。开发者可以设定从「最低」(预设值)到「高」或「动态」的思考级别,让模型在渲染之前仔细分析复杂的提示。速度和可选的思考机制结合,正是品质提升的关键。

Nano Banana 2 的速度优势名不虚传。我们让 Nano Banana 2 产生完整的比特币生态系统时间线,包括研究和最终的成品图。整个过程耗时与 Nano Banana Pro 仅完成比特币时间线所需的时间大致相同。之后,我们又让它产生以太坊时间线,几乎没花多少时间。对于任何运行迭代流程或进行大规模构建的人来说,这都是一个显著的差距。

其强大的全球知识储备确实改变了最终呈现的效果。当我们要求制作一个加密货币历史时间轴时,模型搜寻了多个资讯来源,筛选出最相关的事件,并围绕这些事件建立了图表。它并非千篇一律,而是经过了编辑。我们发现的唯一瑕疵是,一个章节的结尾和另一个章节的开头之间缺少视觉衔接。除此之外,其他部分衔接流畅。相较之下,Nano Banana Pro 产生的内容则更偏向通用艺术风格,并且似乎并没有努力去寻找或区分事件的优先顺序。

例如,当提示「创建一个比特币历史时间线,突出显示从比特币诞生至今最重要的事件。宽屏,儿童绘画风格」时,Nano Banana 2 生成了如下内容。

作为对比,这是使用 Nano Banana Pro 的同一代产品:

字元一致性和文字处理能力是我们测试结果中最令人印象深刻的部分。我们让模型产生杂志封面,结果每一行文字都准确无误、清晰易读。没有出现乱码,也没有字型偏移。

Nano Banana Pro 在这方面也很出色,但它产生的故障更多,而且其杂志封面输出具有 3D 渲染质量,看起来很假。

Nano Banana 2 的生成结果看起来非常逼真。而且,它在根据自身逻辑推理生成文本时,乱码总体上也更少,而不仅仅是在明确指定要输入的内容时才生成。

也就是说,模型的内容上限很明确。我们请 Nano Banana 2 编辑一张真实照片,将照片中人物的服装改为内衣。经过一番解释,它拒绝了。这倒也在意料之中,但它拒绝编辑女性照片,却可以编辑男性照片。

要求交换泳装的请求很顺利。审查等级似乎与 Nano Banana Pro 大致相同,这意味著任何涉及露骨内容或在暗示性场景中操纵真实人物的内容都会被封锁。这一点比听起来更重要,我们稍后会解释原因。

2026 年 2 月下旬发布旗舰图像模型的问题在于:位元组跳动在同一周发布了Seedream 5

过去一年,Seedream 已成为社群的热门选择,这并非偶然。它灵活便捷,性价比高——透过 API 传输图片,每张图片仅需约 0.035 美元,约为Google 价格的三分之一——而且其内容审核比 Google 宽松得多。正是最后一点,让它在需要更大空间与真人互动或突破视觉界限的创作者中赢得了众多忠实拥趸。

Seedream 5 将即时网路搜寻功能整合到其生成流程中,改进了推理能力,增强了参考影像的一致性,并支援在单次多轮编辑工作流程中使用多达 14 张参考影像。它可在数秒内产生 2K 和 4K 影像。此外,它还可在本地运行(谷歌不允许这样做),并可透过位元组跳动的 CapCut 和 Jianying 以及标准 API 使用。

简而言之,Google和位元组跳动在同一周内发布了基于网路搜寻、增强推理能力的图像模型。这预示著整个领域的发展方向。

来源
免责声明:以上内容仅为作者观点,不代表Followin的任何立场,不构成与Followin相关的任何投资建议。
喜欢
72
收藏
12
评论