菜單上的字終於對了：ChatGPT Images 2.0離人類設計師更近一步

36氪

兩年前，你讓當時最強的AI圖像模型生成一張餐廳菜單。

菜單出來了，排版漂亮，配色正確，但菜名全部是亂碼。

兩年後，同樣的提示詞交給ChatGPT Images 2.0，生成的菜單可以直接送去印刷。不僅文字正確，價格合理，連排版間距都像是真正的設計師做的。

這兩年之間發生了什麼？OpenAI認為過去一直沒有解決的問題叫“意圖鴻溝”（intent gap）：用戶腦子裡想要的東西，和屏幕上最終出現的東西之間，有一條一直跨不過去的溝。

最新發布的ChatGPT Images 2.0解決的正是這個問題，雖然不夠徹底，但已經足夠讓一部分人先用起來。

01 這次更新，OpenAI自己怎麼定義它？

官方發佈的ChatGPT Images 2.0功能清單是：更快、文字渲染更準、多語言支持、新增Thinking模式。但如果只說Images 2.0是"更好的圖像生成器"顯然也低估了OpenAI的野心。

OpenAI內部對這個產品的定位，是專門為了彌合AI圖像生成中的“意圖鴻溝”而打造的。所謂意圖鴻溝，是指用戶腦子裡想要的東西，和最終生成出來的東西之間，長期存在的那條鴻溝。

這背後有一個根本性的轉變：

以前：你描述→AI生成

Images 2.0：你描述→AI理解你的真實意圖→AI自主查資料、想佈局→AI生成，並在交付前自我審查

中間多出來的那兩步，才是這次發佈真正重點。

02 Thinking模式：它在做什麼？

根據OpenAI的說明，Thinking模式給了模型三種新能力：

聯網搜索：接到任務後，模型可以主動檢索相關參考資料，而不是單純依賴訓練數據。這意味著它能處理品牌規範、最新產品信息、時事相關的視覺需求。

多方案並行生成：在單次提示詞下生成多達8張保持"角色與對象一致性"的連貫圖像。這對於漫畫分鏡、社交媒體系列圖、品牌物料的批量生產，是一個實質性的工作流改變。

生成前自我審查：模型會在最終輸出之前檢查自己的草稿是否符合要求。這一步在以前是完全缺失的——AI生成什麼就是什麼，沒有"質檢"環節。

三者組合起來，讓整個工作流程更接近一個助理設計師，而不是一個“接受指令、照單輸出”的機械性工具。

Thinking模式目前僅對ChatGPT Plus、Pro 和 Business用戶開放。免費用戶使用的是基礎模式，生成邏輯和結果都有所不同。這一點在很多評測中被混淆，導致對比結論出入較大。

03 文字渲染：為什麼這是最被低估的進步？

AI圖像生成發展了幾年，文字渲染一直是最明顯的短板。原因在於技術架構本身：傳統擴散模型（diffusion model）以像素為單位生成圖像，文字信息在訓練數據中佔比極小，模型幾乎沒有機會“學會”文字是怎麼工作的。

Images 2.0的進步之所以顯著，在於它能夠處理以前幾乎不可能完成的任務：

• 餐廳菜單，菜名、價格、排版全部正確

• 密集的UI截圖還原，文字層次清晰

• 多語言混排的信息圖表，包括中文、日語、韓語、印地語、孟加拉語

這最後一點對咱們中文用戶的意義不言而喻。AI視覺內容生產長期存在一條隱性的語言鴻溝：英語世界的用戶可以用AI做精準的營銷海報和品牌物料，而非英語用戶面對的往往是錯別字和亂碼，被迫放棄或尋找人工替代。

如果Images 2.0真正穩定地解決了這個問題，它實際上是在把一種工業級的視覺生產能力，更平等地交給全球非英語用戶。對東南亞、南亞、東亞市場的設計從業者和中小企業來說，這將是實際工作流層面的改變。

當然，“顯著進步”和“徹底解決”之間仍有差距。測試結果顯示，非英語語種渲染依然存在不穩定性，複雜排版下的錯誤率高於英語。

04 架構問題：OpenAI為何不回答？

在發佈前的媒體簡報會上，OpenAI拒絕回答關於Images 2.0底層模型架構的問題，不說是擴散模型，不說是自迴歸模型，一概不提。

傳統擴散模型的文字渲染能力有其結構性上限，而Images 2.0展示出的文字理解和指令跟隨能力，從表現上看已經超出了這個上限。

一種合理的推測是，Images 2.0 與 GPT-4o的語言模型架構存在比DALL-E時代更深度的集成，視覺輸出能力更接近語言模型的“延伸”，而非一個獨立的圖像生成系統。

但這終究是推測。OpenAI選擇不披露，既有商業競爭的考量，也可能有模型仍在迭代的原因。我們唯一能判斷的是，它在某些任務上的表現，已經超出了現有架構分類所能預測的邊界。

05 灰度測試細節：代號“duct tape”

在正式發佈之前，Images 2.0 以代號“duct tape”（膠帶）的形式，悄悄上線了第三方AI測試平臺LM Arena，公開運行了數週，收集真實用戶反饋。

這個細節反映了OpenAI產品發佈策略的一個變化，從“憋大招、一鍵發佈”，轉向"先讓真實用戶用、再正式推出"。這是一種更工程化、風險更可控的節奏。

“duct tape”這個代號本身也耐人尋味，膠帶意味著臨時性的連接，把兩個不完全匹配的部分強行粘合。這可能只是一個隨意的內部命名，但也可能暗示OpenAI對當前這個版本仍然持有某種謙遜：它是一個階段性的解決方案，而非終點。

06 競爭格局：真正的對手不是Midjourney

市場上，Google於2026年2月發佈的Gemini 3 Pro Image同樣具備文字嵌入圖像的能力，在部分任務上與 Images 2.0 互有勝負。Midjourney 在藝術風格生成上依然有其獨特優勢。

但把這場競爭描述為“圖像生成模型之間的比拼”就完全理解錯了。

Images 2.0真正在擠壓的，是另一類工具的市場空間：Canva的模板編輯器、Adobe Express的快速設計功能、小型設計工作室承接的低複雜度物料需求。OpenAI自己點名的目標應用場景是本地化廣告、信息圖表、教育內容、品牌物料，這些商業設計的日常基本盤，而非藝術創作的邊緣地帶。

這個定位意味著它的潛在用戶，首先不是創意設計師，而是每天需要生產大量視覺物料、但沒有專職設計資源的人：品牌運營、市場專員、內容編輯、獨立創業者。

07 還沒解決的問題

渲染穩定性：非英語語種的文字渲染仍然存在不穩定性，英語以外的複雜排版錯誤率仍高於預期。"有進步"和"徹底解決"之間，還有明顯的距離。

數據截止日期：模型的訓練數據截至2025年12月。Thinking模式雖然可以聯網搜索，但搜索質量與最終圖像質量之間的銜接機制，目前仍不透明。對於需要引用最新事件或數據的視覺需求，結果可能出現偏差。

內容安全：OpenAI特別強調了圖像水印和實時內容監控。背景是AI生成視覺內容已經出現了被用於政治宣傳和虛假信息的案例。更強的生成能力，與更難辨別的濫用風險，是同一枚硬幣的兩面。技術迭代無法獨自解決這個問題。

08 結語

ChatGPT Images 2.0發佈後，社交媒體上流傳最多的，是那些令人驚歎的演示，完美的菜單、精準的多語言海報、連貫的分鏡圖。它們大多是在最優條件下、由有經驗的用戶生成的。所以我們真正使用起來的時候，可能結果沒那麼穩定和精美。

下圖就是作者用小貓照片生成的一張帶有中文字的圖片，它甚至自主給小貓取了中文名：小金。圖中文字去嗯對，沒有錯別字。但圖片精緻程度和官方照片顯然也差一個量級。

OpenAI正在解決一個難而正確的問題。文字渲染從“基本無用”到“可以直接使用”，跨越的是一個現實的使用門檻。

“意圖鴻溝”還沒有徹底消失。但它確實變窄了，窄到一些人可以開始重新思考自己的工作流了。

本文來自微信公眾號 “強調Next”（ID：leo89203898），作者：新見，36氪經授權發佈。

來源

免責聲明：以上內容僅為作者觀點，不代表Followin的任何立場，不構成與Followin相關的任何投資建議。

喜歡

評論