我們測試了最好的免費 AI 圖像編輯器——以下是你會喜歡和討厭的

本文為機器翻譯
展示原文

精通控制網、費力地處理修復蒙版以及死記硬背晦澀難懂的快速工程公式的時代已經正式結束。那些需要理解樣式參考、LORA 和圖像到圖像流程的複雜工作流程已被一種非常簡單的方式所取代:用簡單的英語輸入你想要的內容。

隨著圖像生成器和圖像編輯器的融合,理解它們之間的根本區別至關重要。像Flux 1 DevGoogle 的 Imagen 這樣的傳統生成器都是從無到有地創建圖像——通過純粹的合成將文本提示轉化為像素。

另一方面, Flux Kontext 和Nano Banana等圖像編輯器的操作方式不同,它們會獲取現有圖像並根據指令進行修改,同時保留核心元素。

隨著模型獲得雙重功能,界限變得越來越模糊,但底層架構卻截然不同。生成器從空白畫布開始優化創作自由和美學質量,而編輯器則優先考慮保留現有元素、精確的局部修改以及保持修改之間的一致性。

ChatGPT 憑藉其集成的 DALL-E 功能開啟了這場革命,將圖像編輯功能帶入了對話式 AI 的大眾視野。其實現方式非常簡單——描述你的編輯,然後觀察編輯效果。

然而,ChatGPT 的視覺輸出嚴重偏向卡通風格,其結果更像是概念圖而非成品。其真實感仍然難以捉摸,因此認真的創作者很快就轉向了其他方向。

後來,谷歌推出了 Nano Banana (技術上稱為Gemini 2.5 Flash Image) ,整個格局發生了翻天覆地的變化。該模型的角色一致性功能樹立了新的標杆,能夠以前所未有的精度跨代維護主體身份。突然之間,“優質”圖像編輯的標準一飛沖天。

從那時起,人工智能領域湧現出不少新模型,每個模型都有各自的優缺點。如果你想知道哪一個最適合你,請繼續閱讀。以下是我們對迄今為止最佳圖像編輯器的比較、評測和解讀,以及你對它們優缺點的解讀。

Reve預覽階段以來經歷了徹底的革新。界面的徹底革新反映了方法上的根本性轉變——Reve 不再是另一個圖像生成器或編輯器,而是像一個擅長視覺任務的 AI 助手一樣運行。

該模型的殺手級功能是它能夠瀏覽網頁並將現實世界的元素融入到一代代中。

例如,當被要求在一張圖片中添加 Google 徽標,然後將其替換為Decrypt的徽標時,Reve 並沒有產生近似的幻覺。該模型會搜索網頁,找到真正的Decrypt徽標,理解其構圖背景,並將其無縫集成到現有圖像中。無需手動上傳,無需參考圖像,也無需向人工智能之神祈禱。

這種網頁瀏覽功能解決了傳統模型的一個根本性限制,因為傳統模型無法真正瀏覽網頁內容。如果要對每個徽標、短語或公眾人物進行訓練,就需要獲取整個互聯網的數據——這是不可能的。Reve 通過按需獲取特定信息來避免這個問題,從而確保準確性,而無需龐大的訓練數據集。

該模型在藝術多樣性方面也表現出色,能夠生成多種風格的圖像,且精度遠超競爭對手。其他模型追求照片級真實感,而 Reve 則致力於最大限度地發揮創意表達。速度依然令人印象深刻,生成和編輯功能的結合也讓人感覺真正統一,而非各自為政。

谷歌的Gemini 2.5 Flash 圖像(因其在網絡社區的暱稱而被廣泛稱為“納米香蕉” )已成為角色一致性的黃金標準。該模型展現出近乎不可思議的能力,能夠理解拍攝對象的特徵,並在不同的場景和語境下準確呈現這些特徵。

對於任何編輯具有特定特徵的照片的人來說,這都是一個典範。傳統的人工智能編輯是從頭開始創建圖像,通過細微的扭曲和不一致,人工智能的干預顯而易見。納米香蕉最大限度地減少了這些明顯的痕跡,生成的編輯保留了原始主題的完整性。

該模型的架構注重主體身份的維護,這意味著將同一個角色放置在不同的場景中、從多個角度展示產品或確保品牌資產的一致性變得輕而易舉。谷歌集成了視覺推理功能,使模型不僅能夠理解要生成什麼,還能理解為什麼某些元素應該保持一致。

然而,Nano Banana 存在著嚴重的侷限性。審查制度非常嚴格——即使是涉及卡通動物衝突的簡單meme概念也會觸發內容警告。谷歌的安全過濾器會將屏蔽的輸出計入用戶配額,這意味著實驗成本很快就會變得昂貴。該模型似乎隨機拒絕編輯,有時會拒絕一些根本不符合內容政策的無害請求。

這些限制因素嚴重影響了創作的靈活性。需要多次迭代或大量創作的用戶很快就會達到配額上限,被迫升級到專業版(20 美元)或超級版(250 美元)。有限的輸出加上嚴格的審查制度,讓任何想要突破創作界限的人都感到沮喪。

阿里巴巴的Qwen 3 Omni Flash在複雜的多元素場景中表現出色。上傳主體圖像,添加姿勢參考,然後觀察模型如何同時解析兩種場景。雖然面部特徵可能會略有偏移,但該模型能夠滿足其他模型無法滿足的構圖要求。

如果您的輸入需要來自不同圖像的元素,那麼它是迄今為止最好的模型

內容限制不如 Nano Banana 嚴格。該模式在遵循基本安全準則的同時,賦予了比 Google 更大的創作自由。信用分配也更為慷慨——12 小時的冷卻時間,而非 Nano Banana 的 24 小時等待時間,意味著更快的迭代週期。

角色一致性仍然是弱點。它確實很棒,但不如 Nano Banana 那樣一致。雖然 Qwen 處理複雜場景的能力令人欽佩,但要跨代保持精準的主體身份卻頗具挑戰性。該模型犧牲了絕對的保真度來換取構圖的準確性——對於某些工作流程來說,這是值得的,但對其他工作流程來說,卻令人沮喪。

如果您想要完全自主並掌控您的世代,那麼本地路線是您的最佳選擇。不過要注意:如果您決定親自動手並託管自己的模型,您將需要一些非常強大的硬件。

Qwen Image Edit是一款適合初學者的本地編輯工具。其自然可靠的編輯功能使其成為多圖像工作流程和精細照片調整的理想選擇。開源特性意味著您可以完全控制內容和處理,但計算要求(例如高昂的顯存和強大的處理能力)限制了其可用性。

質量方面排名第二的是老牌的Flux Kontext 。藝術家們對其在動態場景中的輸出質量讚不絕口,尤其是在背景替換和風格轉換方面。它運行在 6GB VRAM 顯卡上,並進行了大量量化,使其出奇地易於使用,豐富的社區資源為幾乎所有可以想象到的工作流程提供瞭解決方案。

對於愛好者來說,這將是迄今為止最好、最便宜的本地無審查選項。它還能更輕鬆地整合複雜的工作流程,讓用戶可以極其精細地控制他們想要對圖像進行的更改和編輯。

對於 NSFW 內容或敏感工作流程,本地優勢尤為明顯。無需 API 限制、無需內容過濾器、無需使用配額——只需純粹的處理能力決定一切。

就主題一致性而言,它可能並非最準確,儘管一些優秀的快速工程和幾次不同的迭代可能會有所幫助。但如果您決定在 ComfyUI 工作流程中本地使用此模型,那麼您可能已經足夠了解所有插件和資源,這些插件和資源可以使這些模型與 AI 巨頭提供的最先進模型一樣強大。

因此,通過定製訓練的 LoRA、用於面部交換的 ReActor 節點以及一些控制網,您可能會得到與您想象的完全相似的圖像。

以下是一些可以更好地展示模型優勢和劣勢的比較。

視覺輸入:

提示:圖 2 中的女子正面向鏡頭,姿勢與圖 1 中的女子相同。她坐在沙發上。請保留女子的所有面部特徵。

輸出:

獲勝者: Qwen Omni Flash——最擅長管理和準確混合複雜的多元素指令。

視覺輸入:

提示:讓兩個拍攝對象一起擺姿勢

輸出:

獲勝者: Nano Banana——它在保持場景中的主體身份和細節方面無與倫比。

視覺輸入:

提示:把這幅畫變成一幅史詩般的梵高畫。畫中的男人沉思著,手裡拿著一枚比特幣。

輸出:

獲勝者: Reve——創意、藝術或非文字轉換的最佳選擇。

視覺輸入:

提示:將 google 徽標更改為Decrypt.co 徽標

獲勝者: Reve——它特別適合通過按需訪問現實世界的參考資料來插入新穎的元素。

Reve 非常適合那些追求多功能性且無需過多技術投入的創意專業人士。其網頁瀏覽功能對於需要精準標識或最新參考資料的品牌工作來說,無疑是一項寶貴的資源。對於注重速度和創意多樣性而非絕對寫實風格的營銷團隊、平面設計師和內容創作者來說,Reve 無疑是不可或缺的。

Nano Banana 適用於需要始終保持一致性的流程。產品攝影師需要保持產品目錄的一致性,角色設計師需要跨場景的穩定參考,而開發人員則需要構建面向消費者且安全至關重要的應用程序——這些用戶為了保持一致性的回報,願意忍受這些限制。

Qwen Omni Flash 適用於處理複雜、多層次構圖的工作室。該模型能夠處理多種元素,同時保持合理的生成速度,使其成為概念藝術家、故事板創作者以及任何構建場景而非孤立主題的人員的理想選擇。

Flux Kontext 和 Qwen Image Edit 等本地解決方案吸引了具有特定需求的高級用戶,或者希望在預算極低甚至零預算的情況下進行大量編輯和迭代的用戶。對於需要完全創作控制權的獨立藝術家、想要出於“研究目的”編輯圖像的人士以及構建專用應用程序的開發者來說,這些用戶願意承擔基礎設施負擔,以獲得絕對的自由。

另一個強有力的競爭者是字節跳動的 Seedream v4。它相當有競爭力,有人稱讚它是 Nano Banana 的殺手。然而,它沒有免費測試的選項,所以我們把它從這份名單中剔除了。

從技術複雜性到自然語言簡潔性的轉變,使專業圖像編輯變得大眾化。如今,模型之間的競爭不再基於原始能力,而是專業化,各自在各自擅長的領域開闢出一片天地。那些簡單的工程教科書可以退休了。未來將使用簡單的語言。

來源
免責聲明:以上內容僅為作者觀點,不代表Followin的任何立場,不構成與Followin相關的任何投資建議。
喜歡
77
收藏
17
評論