ChatGPT Images 2.0震撼發佈,碾壓谷歌Nano Banana,設計真要完了

北京時間凌晨 3 點,直播準時開始,OpenAI 發佈了 ChatGPT Images 2.0。

據介紹,「ChatGPT Images 2.0 是下一步進化:一個最先進的模型,能夠處理複雜的視覺任務,並生成精確、可直接使用的視覺內容。」

似乎也正因為此,OpenAI 發佈的官方博客內容還提供了兩個版本(圖像模式與經典模式),其中圖像模式下的內容完全是由該模型生成的!

博客地址:https://openai.com/index/introducing-chatgpt-images-2-0/

在博客中,OpenAI 表示:「圖像是一種語言,而不是裝飾。好的圖像,就像好的句子一樣,會進行選擇、組織與呈現。它可以解釋機制,營造氛圍,驗證想法,或構建論證。」

ChatGPT Images 2.0 模型在細緻遵循指令方面實現了質的躍遷,能夠準確放置與關聯對象,並渲染高密度文本,同時支持多種寬高比生成。它在構圖與視覺審美上的能力,使輸出不再像「AI 生成」,而更像「有意設計」。

並且其在多語言環境下同樣表現準確,並能利用擴展的視覺與世界知識為你補全細節,從而以更少提示詞獲得更智能的圖像。

為應對最複雜的任務,Images 2.0 首次引入「思考能力」。在 ChatGPT 中選擇 thinking 或 pro 模型時,Images 2.0 可以聯網獲取實時信息,從一個提示生成多張不同圖像,並對自身輸出進行復核。藉助「思考」,模型能夠承擔從想法到圖像之間更多的工作,尤其在準確性、時效性、一致性與視覺統一性至關重要時。

結合 OpenAI 推理模型的智能與對視覺世界的深刻理解,這一模型將圖像生成從「渲染」提升為「策略性設計」,從工具進化為視覺系統,幫助人們將想法轉化為可理解、可分享、可教學、可構建的成果。

該能力已從今日起向 ChatGPT、Codex 與 API 的所有用戶開放。

更高的精度與控制力

Images 2.0 為圖像創作帶來了前所未有的具體性與還原度。它不僅能構思更復雜的圖像,還能有效將其實現,能夠嚴格遵循指令,保留關鍵細節,並渲染以往模型容易失真的精細元素:小文本、圖標、UI 元素、高密度構圖以及細微風格約束。在 API 中最高支持 2K 分辨率。結果不再是「差不多」,而是「可以直接使用」。

注意看,下面這張截圖整體上其實是 Images 2.0 生成的!

更強的多語言能力

以往圖像生成模型在英語及拉丁字母語言中表現更穩定,但在其他語言,尤其是複雜或密集文本時精度較低。

Images 2.0 突破了這一限制,在多語言理解上顯著增強,尤其是在日語、韓語、中文、印地語與孟加拉語的文本渲染方面有明顯提升。它不僅能正確生成非英語文本,還能保證語言表達自然流暢。

這不僅意味著翻譯標籤,而是讓語言本身成為設計的一部分,從海報、說明圖,到圖解與漫畫,都能實現視覺與語言的統一。這使模型具備更強的全球適用性,讓用戶能夠在真實使用的語言環境中創作視覺內容。

在直播中,OpenAI 圖像研究團隊的成員陳博遠展示了一個案例,他給出提示詞:「Make a artisitic marketing poster for a fictional OpenAI bakery.The poster should be inJapanese language.」

結果生成的海報完全符合提示詞,且在細節上也能夠做到精準。

「它非常擅長遵循非常詳細的指令,所以如果你有非常具體的品牌語言、設計美學 —— 所有那些對創意工作至關重要的東西 —— 你都可以使用 ChatGPT 來創建和完善你的想法,從而得到你想要的結果。」陳博遠說道。

更成熟的風格表達與真實感

Images 2.0 在多種視覺風格上的還原度顯著提升。它更擅長捕捉照片的關鍵特徵,包括那些增強真實感的微小瑕疵,同時也能穩定呈現電影感畫面、像素藝術、漫畫等多種視覺語言,在紋理、光影、構圖與細節上更一致。

因此,模型輸出更貼近指定風格,而非近似模仿。這對於遊戲原型設計、分鏡製作、營銷創意,以及特定媒介或類型的資產創作尤為有價值。

靈活的寬高比

新模型在輸出形式上更靈活,支持從 3:1 到 1:3 的多種寬高比,可直接適配橫幅、演示文稿、海報、手機界面、書籤及社交媒體圖形等不同場景。你可以在提示中指定寬高比,或通過預設選項將已有圖像重新生成至新的尺寸。

下面展示了兩個非常規寬高比的示例:

更強的現實世界理解

Images 2.0 引入了截至 2025 年 12 月的知識,使生成結果在相關性與語境準確性上更進一步。這對於說明圖、教育圖形與可視化總結尤為關鍵,因為在這些場景中,正確性與清晰度與美觀同樣重要。

其智能能力還體現在端到端任務處理上:整合信息、撰寫內容,並以清晰結構、合理留白與良好視覺流進行排版。

視覺思考夥伴

在 ChatGPT 中啟用 thinking 模型後,系統會在後臺進行更深入的理解與執行。它可以聯網檢索信息,將上傳材料轉化為清晰的視覺說明,並在生成前對圖像結構進行推理。

在這種模式下,Images 2.0 更像一個視覺思考夥伴,幫助你將初步概念推進為完整成品,大幅降低工作量。

它還支持一次生成多張不同圖像,這在 ChatGPT 圖像生成中尚屬首次。這使得諸如多頁漫畫、整屋設計方案、系列海報或多語言多尺寸社交素材等工作流變得高效可行。

你無需逐張生成再手動拼接,只需一次請求,即可獲得最多八張在角色與元素上保持一致、且具有連續性的輸出。

在 Codex 中使用圖像生成

Images 能力被整合進 Codex,使視覺創作、迭代與交付在同一工作空間內完成,拓展了其在設計、營銷、產品、銷售及學習等領域的應用。

例如,你可以快速生成多種 UI 方向與原型,比較方案,並將最佳設計直接轉化為產品或網頁體驗,無需離開 Codex。通過 ChatGPT 訂閱即可使用,無需額外 API 密鑰。

通過 API 將圖像能力嵌入產品

開發者與企業可通過 gpt-image-2 API 將這些能力集成進自身產品,在現有工作流中加入高質量圖像生成與編輯能力。

憑藉更強的文本渲染、多語言生成、指令遵循能力,以及更多輸出格式與寬高比支持,API 更易於構建真實業務場景中的圖像工作流,例如本地化廣告、信息圖、說明圖、教育內容、設計工具、創意平臺及網頁生成產品。

侷限性

OpenAI 也在博客中提到了該模型的侷限性:儘管 Images 2.0 是重要進步,但仍不完美。對於需要完整物理世界建模的任務(如摺紙教程、魔方等複雜結構),以及隱藏面、傾斜面或反向表面的精確細節,模型仍可能表現不足。

極高密度或重複性細節(如細沙)也可能帶來挑戰。標籤與圖示在涉及精確箭頭或部件標註時,仍建議人工校對。

這些都是未來改進的重要方向。

在 API 中,超過 2K 的輸出目前仍處於測試階段,可能出現不穩定情況。

定價與可用性

ChatGPT Images 2.0 今日起已向所有 ChatGPT 與 Codex 用戶開放。具備「思考」能力的高級輸出對 ChatGPT Plus、Pro 與 Business 用戶提供。

gpt-image-2 模型已在 API 中提供,價格根據圖像質量與分辨率有所不同。

OpenAI 也在官網上線了大量案例,感興趣的讀者可自行前往查看。

我們也進行了一些簡單測試,比如讓其生成了一張中國高考數學試卷第 2 頁,看著還行:

實測中,我們可以在頁面上看到 ChatGPT Images 2.0 生成一張圖片通常會經歷多個步驟:創建→打個草稿→生成初稿→搭建場景→打磨細節→收尾→最後潤色→最後微調。

接下來我們繼續,「生成一張《將敬酒》繁體中文草書書法作品,寬高比 3:1,內容是李白的《將敬酒》全文。落款是 ChatGPT Images 2.0」:

不過很顯然該模型並沒有生成完整,且也明顯不是草書。

最後來一頁閃電五連鞭的功夫招式圖解說明:

還挺有趣。

整體體驗下來,我們感覺 ChatGPT Images 2.0 確實比目前的 Nano Banana 2 強大不少;看看接下來谷歌如何接招。

你試過 ChatGPT Images 2.0 了嗎?感覺如何?

本文來自微信公眾號“機器之心”(ID:almosthuman2014),作者:Panda、Youli ,36氪經授權發佈。

相关赛道:
來源
免責聲明:以上內容僅為作者觀點,不代表Followin的任何立場,不構成與Followin相關的任何投資建議。
喜歡
76
收藏
16
評論