ChatGPT Images 2.0震撼發佈，碾壓谷歌Nano Banana，設計真要完了

36氪

北京時間凌晨 3 點，直播準時開始，OpenAI 發佈了 ChatGPT Images 2.0。

據介紹，「ChatGPT Images 2.0 是下一步進化：一個最先進的模型，能夠處理複雜的視覺任務，並生成精確、可直接使用的視覺內容。」

似乎也正因為此，OpenAI 發佈的官方博客內容還提供了兩個版本（圖像模式與經典模式），其中圖像模式下的內容完全是由該模型生成的！

博客地址：https://openai.com/index/introducing-chatgpt-images-2-0/

在博客中，OpenAI 表示：「圖像是一種語言，而不是裝飾。好的圖像，就像好的句子一樣，會進行選擇、組織與呈現。它可以解釋機制，營造氛圍，驗證想法，或構建論證。」

ChatGPT Images 2.0 模型在細緻遵循指令方面實現了質的躍遷，能夠準確放置與關聯對象，並渲染高密度文本，同時支持多種寬高比生成。它在構圖與視覺審美上的能力，使輸出不再像「AI 生成」，而更像「有意設計」。

並且其在多語言環境下同樣表現準確，並能利用擴展的視覺與世界知識為你補全細節，從而以更少提示詞獲得更智能的圖像。

為應對最複雜的任務，Images 2.0 首次引入「思考能力」。在 ChatGPT 中選擇 thinking 或 pro 模型時，Images 2.0 可以聯網獲取實時信息，從一個提示生成多張不同圖像，並對自身輸出進行復核。藉助「思考」，模型能夠承擔從想法到圖像之間更多的工作，尤其在準確性、時效性、一致性與視覺統一性至關重要時。

結合 OpenAI 推理模型的智能與對視覺世界的深刻理解，這一模型將圖像生成從「渲染」提升為「策略性設計」，從工具進化為視覺系統，幫助人們將想法轉化為可理解、可分享、可教學、可構建的成果。

該能力已從今日起向 ChatGPT、Codex 與 API 的所有用戶開放。

更高的精度與控制力

Images 2.0 為圖像創作帶來了前所未有的具體性與還原度。它不僅能構思更復雜的圖像，還能有效將其實現，能夠嚴格遵循指令，保留關鍵細節，並渲染以往模型容易失真的精細元素：小文本、圖標、UI 元素、高密度構圖以及細微風格約束。在 API 中最高支持 2K 分辨率。結果不再是「差不多」，而是「可以直接使用」。

注意看，下面這張截圖整體上其實是 Images 2.0 生成的！

更強的多語言能力

以往圖像生成模型在英語及拉丁字母語言中表現更穩定，但在其他語言，尤其是複雜或密集文本時精度較低。

Images 2.0 突破了這一限制，在多語言理解上顯著增強，尤其是在日語、韓語、中文、印地語與孟加拉語的文本渲染方面有明顯提升。它不僅能正確生成非英語文本，還能保證語言表達自然流暢。

這不僅意味著翻譯標籤，而是讓語言本身成為設計的一部分，從海報、說明圖，到圖解與漫畫，都能實現視覺與語言的統一。這使模型具備更強的全球適用性，讓用戶能夠在真實使用的語言環境中創作視覺內容。

在直播中，OpenAI 圖像研究團隊的成員陳博遠展示了一個案例，他給出提示詞：「Make a artisitic marketing poster for a fictional OpenAI bakery.The poster should be inJapanese language.」

結果生成的海報完全符合提示詞，且在細節上也能夠做到精準。

「它非常擅長遵循非常詳細的指令，所以如果你有非常具體的品牌語言、設計美學 —— 所有那些對創意工作至關重要的東西 —— 你都可以使用 ChatGPT 來創建和完善你的想法，從而得到你想要的結果。」陳博遠說道。

更成熟的風格表達與真實感

Images 2.0 在多種視覺風格上的還原度顯著提升。它更擅長捕捉照片的關鍵特徵，包括那些增強真實感的微小瑕疵，同時也能穩定呈現電影感畫面、像素藝術、漫畫等多種視覺語言，在紋理、光影、構圖與細節上更一致。

因此，模型輸出更貼近指定風格，而非近似模仿。這對於遊戲原型設計、分鏡製作、營銷創意，以及特定媒介或類型的資產創作尤為有價值。

靈活的寬高比

新模型在輸出形式上更靈活，支持從 3:1 到 1:3 的多種寬高比，可直接適配橫幅、演示文稿、海報、手機界面、書籤及社交媒體圖形等不同場景。你可以在提示中指定寬高比，或通過預設選項將已有圖像重新生成至新的尺寸。

下面展示了兩個非常規寬高比的示例：

更強的現實世界理解

Images 2.0 引入了截至 2025 年 12 月的知識，使生成結果在相關性與語境準確性上更進一步。這對於說明圖、教育圖形與可視化總結尤為關鍵，因為在這些場景中，正確性與清晰度與美觀同樣重要。

其智能能力還體現在端到端任務處理上：整合信息、撰寫內容，並以清晰結構、合理留白與良好視覺流進行排版。

視覺思考夥伴

在 ChatGPT 中啟用 thinking 模型後，系統會在後臺進行更深入的理解與執行。它可以聯網檢索信息，將上傳材料轉化為清晰的視覺說明，並在生成前對圖像結構進行推理。

在這種模式下，Images 2.0 更像一個視覺思考夥伴，幫助你將初步概念推進為完整成品，大幅降低工作量。

它還支持一次生成多張不同圖像，這在 ChatGPT 圖像生成中尚屬首次。這使得諸如多頁漫畫、整屋設計方案、系列海報或多語言多尺寸社交素材等工作流變得高效可行。

你無需逐張生成再手動拼接，只需一次請求，即可獲得最多八張在角色與元素上保持一致、且具有連續性的輸出。

在 Codex 中使用圖像生成

Images 能力被整合進 Codex，使視覺創作、迭代與交付在同一工作空間內完成，拓展了其在設計、營銷、產品、銷售及學習等領域的應用。

例如，你可以快速生成多種 UI 方向與原型，比較方案，並將最佳設計直接轉化為產品或網頁體驗，無需離開 Codex。通過 ChatGPT 訂閱即可使用，無需額外 API 密鑰。

通過 API 將圖像能力嵌入產品

開發者與企業可通過 gpt-image-2 API 將這些能力集成進自身產品，在現有工作流中加入高質量圖像生成與編輯能力。

憑藉更強的文本渲染、多語言生成、指令遵循能力，以及更多輸出格式與寬高比支持，API 更易於構建真實業務場景中的圖像工作流，例如本地化廣告、信息圖、說明圖、教育內容、設計工具、創意平臺及網頁生成產品。

侷限性

OpenAI 也在博客中提到了該模型的侷限性：儘管 Images 2.0 是重要進步，但仍不完美。對於需要完整物理世界建模的任務（如摺紙教程、魔方等複雜結構），以及隱藏面、傾斜面或反向表面的精確細節，模型仍可能表現不足。

極高密度或重複性細節（如細沙）也可能帶來挑戰。標籤與圖示在涉及精確箭頭或部件標註時，仍建議人工校對。

這些都是未來改進的重要方向。

在 API 中，超過 2K 的輸出目前仍處於測試階段，可能出現不穩定情況。

定價與可用性

ChatGPT Images 2.0 今日起已向所有 ChatGPT 與 Codex 用戶開放。具備「思考」能力的高級輸出對 ChatGPT Plus、Pro 與 Business 用戶提供。

gpt-image-2 模型已在 API 中提供，價格根據圖像質量與分辨率有所不同。

OpenAI 也在官網上線了大量案例，感興趣的讀者可自行前往查看。

我們也進行了一些簡單測試，比如讓其生成了一張中國高考數學試卷第 2 頁，看著還行：

實測中，我們可以在頁面上看到 ChatGPT Images 2.0 生成一張圖片通常會經歷多個步驟：創建→打個草稿→生成初稿→搭建場景→打磨細節→收尾→最後潤色→最後微調。

接下來我們繼續，「生成一張《將敬酒》繁體中文草書書法作品，寬高比 3:1，內容是李白的《將敬酒》全文。落款是 ChatGPT Images 2.0」：

不過很顯然該模型並沒有生成完整，且也明顯不是草書。

最後來一頁閃電五連鞭的功夫招式圖解說明：

還挺有趣。

整體體驗下來，我們感覺 ChatGPT Images 2.0 確實比目前的 Nano Banana 2 強大不少；看看接下來谷歌如何接招。

你試過 ChatGPT Images 2.0 了嗎？感覺如何？

本文來自微信公眾號“機器之心”（ID：almosthuman2014），作者：Panda、Youli ，36氪經授權發佈。