谷歌發佈 Nano Banana 2：人工智能圖像生成的新王者？

02-27

本文為機器翻譯

展示原文

谷歌最近發佈人工智慧軟體的速度令人驚嘆。僅在過去一周左右的時間裡，我們就看到了Gemini 3.1、 Lyria和 Pali，其中 Pali 的照片拍攝功能大受歡迎。而現在，去年最熱門的影像生成軟體之一的後續版本也已問世。

Google在周四發布的 Nano Banana 2 “將Gemini Flash 的高速智能引入視覺生成領域，從而實現了快速編輯和迭代，”谷歌在一篇官方博客文章中表示，並補充說，“它使曾經僅限 Pro 用戶使用的功能能夠惠及更廣泛的用戶群體。”

簡單來說，最初的 Nano Banana 實際上名為Gemini 2.5 Flash Image，它本質上就是一個基於Gemini 2.5 Flash 的圖像生成器。後來推出了 Nano Banana Pro，也就是Gemini 3 Pro Image，並在去年 11 月發布後迅速成為 AI 影像編輯領域的標竿。

Nano Banana 2 的技術版本實際上是Gemini 3.1 Flash Image——所以它並非 Pro 的直接續作，而更像是原版的重大升級版，現在運行在更新的Gemini 3 Flash 核心上。是不是有點繞？沒錯。

這裡的概念很簡單：保留 Nano Banana Pro 的所有優點，並使其以 Flash 的速度運作。

全新 Nano Banana 2 今天起在 Google 生態系統中全面推出。在Gemini應用程式中，它將取代 Nano Banana Pro，成為 Fast、Thinking 和 Pro 三種型號的預設人工智慧工具。 Google AI Pro 和 Ultra 訂閱用戶仍可透過三點選單重新啟用 Nano Banana Pro，用於執行特定任務。

SynthID 也已在 Google 搜尋的 AI 模式和 Lens 中上線，可透過 AI Studio 中的Gemini API 和 Vertex AI 預覽版使用，並且是 Flow 中新的預設影像生成模型，所有用戶均可免費使用。 Google 也正在擴展 SynthID 浮水印功能，並添加 C2PA 內容憑證支持，以便為平台提供更好的工具來識別 AI 生成的媒體。自去年 11 月以來，SynthID 驗證功能已被使用超過 2,000 萬次。

最大的亮點在於其豐富的全球知識。 Nano Banana 2 能夠在影像生成過程中即時檢索網路訊息，這意味著它可以精準地渲染特定物件。無論是標誌、地標、近期事件還是品牌標識，它都能準確識別，因為它能夠進行即時搜索，而不僅僅是依靠訓練資料進行猜測。

文字渲染功能也得到了顯著提升。現在，無論是在提示中手動輸入，還是讓模型根據上下文自動生成文本，您都可以在圖像中生成準確清晰的文本。此外，它還支援圖像內翻譯，因此您無需從頭開始重建圖像，即可將廣告活動在地化為多種語言。

主體一致性也在不斷拓展。據谷歌稱，該模型最多可以保持五個主體之間的角色相似性，並在單一工作流程中保持多達 14 個物件的視覺保真度。這對任何建構敘事、故事板或打造統一品牌資產的人來說都意義重大。

在製作方面，它支援從 512px 到 4K 的所有分辨率，並原生支援多種寬高比。指令執行也比之前的 Flash 版本更精準，這意味著在實際操作中，那些模稜兩可的提示會減少，而真正能準確執行你要求的提示則會更多。

現在，推理過程也可以配置了。開發者可以設定從「最低」（預設值）到「高」或「動態」的思考級別，讓模型在渲染之前仔細分析複雜的提示。速度和可選的思考機制結合，正是品質提升的關鍵。

Nano Banana 2 的速度優勢名不虛傳。我們讓 Nano Banana 2 產生完整的比特幣生態系統時間線，包括研究和最終的成品圖。整個過程耗時與 Nano Banana Pro 僅完成比特幣時間線所需的時間大致相同。之後，我們又讓它產生以太坊時間線，幾乎沒花多少時間。對於任何運行迭代流程或進行大規模構建的人來說，這都是一個顯著的差距。

其強大的全球知識儲備確實改變了最終呈現的效果。當我們要求製作一個加密貨幣歷史時間軸時，模型搜尋了多個資訊來源，篩選出最相關的事件，並圍繞這些事件建立了圖表。它並非千篇一律，而是經過了編輯。我們發現的唯一瑕疵是，一個章節的結尾和另一個章節的開頭之間缺少視覺銜接。除此之外，其他部分銜接流暢。相較之下，Nano Banana Pro 產生的內容則更偏向通用藝術風格，並且似乎並沒有努力去尋找或區分事件的優先順序。

例如，當提示「創建一個比特幣歷史時間線，突出顯示從比特幣誕生至今最重要的事件。寬屏，兒童繪畫風格」時，Nano Banana 2 生成瞭如下內容。

作為對比，這是使用 Nano Banana Pro 的同一代產品：

字元一致性和文字處理能力是我們測試結果中最令人印象深刻的部分。我們讓模型產生雜誌封面，結果每一行文字都準確無誤、清晰易讀。沒有出現亂碼，也沒有字型偏移。

Nano Banana Pro 在這方面也很出色，但它產生的故障更多，而且其雜誌封面輸出具有 3D 渲染質量，看起來很假。

Nano Banana 2 的生成結果看起來非常逼真。而且，它在根據自身邏輯推理生成文本時，亂碼總體上也更少，而不僅僅是在明確指定要輸入的內容時才生成。

也就是說，模型的內容上限很明確。我們請 Nano Banana 2 編輯一張真實照片，將照片中人物的服裝改為內衣。經過一番解釋，它拒絕了。這倒也在意料之中，但它拒絕編輯女性照片，卻可以編輯男性照片。

要求交換泳裝的請求很順利。審查等級似乎與 Nano Banana Pro 大致相同，這意味著任何涉及露骨內容或在暗示性場景中操縱真實人物的內容都會被封鎖。這一點比聽起來更重要，我們稍後會解釋原因。

2026 年 2 月下旬發布旗艦圖像模型的問題在於：位元組跳動在同一周發布了Seedream 5 。

過去一年，Seedream 已成為社群的熱門選擇，這並非偶然。它靈活便捷，性價比高——透過 API 傳輸圖片，每張圖片僅需約 0.035 美元，約為Google 價格的三分之一——而且其內容審核比 Google 寬鬆得多。正是最後一點，讓它在需要更大空間與真人互動或突破視覺界限的創作者中贏得了眾多忠實擁躉。

Seedream 5 將即時網路搜尋功能整合到其生成流程中，改進了推理能力，增強了參考影像的一致性，並支援在單次多輪編輯工作流程中使用多達 14 張參考影像。它可在數秒內產生 2K 和 4K 影像。此外，它還可在本地運行（谷歌不允許這樣做），並可透過位元組跳動的 CapCut 和 Jianying 以及標準 API 使用。

簡而言之，Google和位元組跳動在同一周內發布了基於網路搜尋、增強推理能力的圖像模型。這預示著整個領域的發展方向。