兩年前,你讓當時最強的AI圖像模型生成一張餐廳菜單。
菜單出來了,排版漂亮,配色正確,但菜名全部是亂碼。
兩年後,同樣的提示詞交給ChatGPT Images 2.0,生成的菜單可以直接送去印刷。不僅文字正確,價格合理,連排版間距都像是真正的設計師做的。
這兩年之間發生了什麼?OpenAI認為過去一直沒有解決的問題叫“意圖鴻溝”(intent gap):用戶腦子裡想要的東西,和屏幕上最終出現的東西之間,有一條一直跨不過去的溝。
最新發布的ChatGPT Images 2.0解決的正是這個問題,雖然不夠徹底,但已經足夠讓一部分人先用起來。
01 這次更新,OpenAI自己怎麼定義它?
官方發佈的ChatGPT Images 2.0功能清單是:更快、文字渲染更準、多語言支持、新增Thinking模式。但如果只說Images 2.0是"更好的圖像生成器"顯然也低估了OpenAI的野心。
OpenAI內部對這個產品的定位,是專門為了彌合AI圖像生成中的“意圖鴻溝”而打造的。所謂意圖鴻溝,是指用戶腦子裡想要的東西,和最終生成出來的東西之間,長期存在的那條鴻溝。
這背後有一個根本性的轉變:
以前:你描述→AI生成
Images 2.0:你描述→AI理解你的真實意圖→AI自主查資料、想佈局→AI生成,並在交付前自我審查
中間多出來的那兩步,才是這次發佈真正重點。
02 Thinking模式:它在做什麼?
根據OpenAI的說明,Thinking模式給了模型三種新能力:
聯網搜索:接到任務後,模型可以主動檢索相關參考資料,而不是單純依賴訓練數據。這意味著它能處理品牌規範、最新產品信息、時事相關的視覺需求。
多方案並行生成:在單次提示詞下生成多達8張保持"角色與對象一致性"的連貫圖像。這對於漫畫分鏡、社交媒體系列圖、品牌物料的批量生產,是一個實質性的工作流改變。
生成前自我審查:模型會在最終輸出之前檢查自己的草稿是否符合要求。這一步在以前是完全缺失的——AI生成什麼就是什麼,沒有"質檢"環節。
三者組合起來,讓整個工作流程更接近一個助理設計師,而不是一個“接受指令、照單輸出”的機械性工具。
Thinking模式目前僅對ChatGPT Plus、Pro 和 Business用戶開放。免費用戶使用的是基礎模式,生成邏輯和結果都有所不同。這一點在很多評測中被混淆,導致對比結論出入較大。
03 文字渲染:為什麼這是最被低估的進步?
AI圖像生成發展了幾年,文字渲染一直是最明顯的短板。原因在於技術架構本身:傳統擴散模型(diffusion model)以像素為單位生成圖像,文字信息在訓練數據中佔比極小,模型幾乎沒有機會“學會”文字是怎麼工作的。
Images 2.0的進步之所以顯著,在於它能夠處理以前幾乎不可能完成的任務:
• 餐廳菜單,菜名、價格、排版全部正確
• 密集的UI截圖還原,文字層次清晰
• 多語言混排的信息圖表,包括中文、日語、韓語、印地語、孟加拉語
這最後一點對咱們中文用戶的意義不言而喻。AI視覺內容生產長期存在一條隱性的語言鴻溝:英語世界的用戶可以用AI做精準的營銷海報和品牌物料,而非英語用戶面對的往往是錯別字和亂碼,被迫放棄或尋找人工替代。
如果Images 2.0真正穩定地解決了這個問題,它實際上是在把一種工業級的視覺生產能力,更平等地交給全球非英語用戶。對東南亞、南亞、東亞市場的設計從業者和中小企業來說,這將是實際工作流層面的改變。
當然,“顯著進步”和“徹底解決”之間仍有差距。測試結果顯示,非英語語種渲染依然存在不穩定性,複雜排版下的錯誤率高於英語。
04 架構問題:OpenAI為何不回答?
在發佈前的媒體簡報會上,OpenAI拒絕回答關於Images 2.0底層模型架構的問題,不說是擴散模型,不說是自迴歸模型,一概不提。
傳統擴散模型的文字渲染能力有其結構性上限,而Images 2.0展示出的文字理解和指令跟隨能力,從表現上看已經超出了這個上限。
一種合理的推測是,Images 2.0 與 GPT-4o的語言模型架構存在比DALL-E時代更深度的集成,視覺輸出能力更接近語言模型的“延伸”,而非一個獨立的圖像生成系統。
但這終究是推測。OpenAI選擇不披露,既有商業競爭的考量,也可能有模型仍在迭代的原因。我們唯一能判斷的是,它在某些任務上的表現,已經超出了現有架構分類所能預測的邊界。
05 灰度測試細節:代號“duct tape”
在正式發佈之前,Images 2.0 以代號“duct tape”(膠帶)的形式,悄悄上線了第三方AI測試平臺LM Arena,公開運行了數週,收集真實用戶反饋。
這個細節反映了OpenAI產品發佈策略的一個變化,從“憋大招、一鍵發佈”,轉向"先讓真實用戶用、再正式推出"。這是一種更工程化、風險更可控的節奏。
“duct tape”這個代號本身也耐人尋味,膠帶意味著臨時性的連接,把兩個不完全匹配的部分強行粘合。這可能只是一個隨意的內部命名,但也可能暗示OpenAI對當前這個版本仍然持有某種謙遜:它是一個階段性的解決方案,而非終點。
06 競爭格局:真正的對手不是Midjourney
市場上,Google於2026年2月發佈的Gemini 3 Pro Image同樣具備文字嵌入圖像的能力,在部分任務上與 Images 2.0 互有勝負。Midjourney 在藝術風格生成上依然有其獨特優勢。
但把這場競爭描述為“圖像生成模型之間的比拼”就完全理解錯了。
Images 2.0真正在擠壓的,是另一類工具的市場空間:Canva的模板編輯器、Adobe Express的快速設計功能、小型設計工作室承接的低複雜度物料需求。OpenAI自己點名的目標應用場景是本地化廣告、信息圖表、教育內容、品牌物料,這些商業設計的日常基本盤,而非藝術創作的邊緣地帶。
這個定位意味著它的潛在用戶,首先不是創意設計師,而是每天需要生產大量視覺物料、但沒有專職設計資源的人:品牌運營、市場專員、內容編輯、獨立創業者。
07 還沒解決的問題
渲染穩定性:非英語語種的文字渲染仍然存在不穩定性,英語以外的複雜排版錯誤率仍高於預期。"有進步"和"徹底解決"之間,還有明顯的距離。
數據截止日期:模型的訓練數據截至2025年12月。Thinking模式雖然可以聯網搜索,但搜索質量與最終圖像質量之間的銜接機制,目前仍不透明。對於需要引用最新事件或數據的視覺需求,結果可能出現偏差。
內容安全:OpenAI特別強調了圖像水印和實時內容監控。背景是AI生成視覺內容已經出現了被用於政治宣傳和虛假信息的案例。更強的生成能力,與更難辨別的濫用風險,是同一枚硬幣的兩面。技術迭代無法獨自解決這個問題。
08 結語
ChatGPT Images 2.0發佈後,社交媒體上流傳最多的,是那些令人驚歎的演示,完美的菜單、精準的多語言海報、連貫的分鏡圖。它們大多是在最優條件下、由有經驗的用戶生成的。所以我們真正使用起來的時候,可能結果沒那麼穩定和精美。
下圖就是作者用小貓照片生成的一張帶有中文字的圖片,它甚至自主給小貓取了中文名:小金。圖中文字去嗯對,沒有錯別字。但圖片精緻程度和官方照片顯然也差一個量級。
OpenAI正在解決一個難而正確的問題。文字渲染從“基本無用”到“可以直接使用”,跨越的是一個現實的使用門檻。
“意圖鴻溝”還沒有徹底消失。但它確實變窄了,窄到一些人可以開始重新思考自己的工作流了。
本文來自微信公眾號 “強調Next”(ID:leo89203898),作者:新見,36氪經授權發佈。






