跑分第一，實戰拉胯，GPT Image 1.5被罵慘，奧特曼這波懸了

36氪

12-17

OpenAI深夜祭出大招，全新GPT Image 1.5重磅出世，拿下榜單雙料第一，實力碾壓谷歌Nano Banana Pro。但全網實測，罵聲一片。

谷歌剛傳出要發Gemini 3.0 Flash，結果OpenAI反手就是一個「王炸」。

就在剛剛，OpenAI拋出了它的「聖誕彩蛋」——新一代旗艦圖像模型ChatGPT Images正式登場。

這一次，OpenAI將生圖能力直接拉滿：

精準操控：指令理解力大幅提升，真正做到「指哪改哪」。

細節狂魔：畫面細節保留完整，質感細膩。

極速生成：速度較前代提升了整整4倍。

而且從今天起，所有ChatGPT免費用戶即可上手，開發者也可直接調用GPT Image 1.5 API。

在LMArena競技場上，它似乎不可戰勝：

文生圖：以1264 Elo分登頂榜首，力壓谷歌Nano Banana Pro（NBP）。

圖像編輯：chatgpt-image-latest以3分優勢險勝NBP奪冠，而GPT Image 1.5緊隨其後位列第4。

在Artificial Analysis上，更是拿下了「雙料第一」。

然而，反轉來得太快。

網友實測後發現，這似乎又是一個「高分低能」的典型。

在Yuchen Jin的對比中，GPT的生圖能力基本上能達到谷歌NBP的水平，但智商卻慘遭碾壓。

尤其是在處理手寫體筆記時，GPT Image 1.5的生成看著像模像樣，但是完全沒做對。

左：ChatGPT Images；右：Nano Banana Pro

這一落差引發了社區的激烈吐槽。

有人直言不諱：「谷歌Nano Banana Pro依然是王者。」

更有人痛批：「這可能是OpenAI又一次令人尷尬、且毫無意義的發佈。」

先是GPT-5.2引全網差評，又是GPT Image 1.5真實首測不敵谷歌「香蕉」。

看來，OpenAI年底這場硬仗，徹底敗給了谷歌......

GPT Image 1.5登場，史詩級進化

言歸正傳。

根據官方博客介紹，現在讓ChatGPT修圖，明顯比之前更聽話了——

哪怕是細枝末節，只改讓改的地方，同時確保光線、構圖和人物樣貌等元素在輸入、輸出和後續編輯中保持一致。

OpenAI華人研究員陳博遠一張圖，驗證了GPT Image代號「榛子」出爐了

這樣一來，即可得到真正符合意圖的結果。

不論是有用的照片編輯，服裝髮型試穿試戴，還是保留原圖精髓的風格濾鏡和概念轉換，ChatGPT皆可搞定。

這一波更新，讓ChatGPT成為隨身攜帶的創意工作室：既能踏實幹活兒，又能放飛玩創意。

這不，聖誕奧特曼來了......

指哪改哪，多輪P圖

GPT Image 1.5擅長各種「手術」，包括添加、刪減、組合、融合和置換。

因此，在想要改變圖片的同時，它還能不丟失圖片原本的「味道」。

兩人一狗，GPT Image 1.5精準捕捉了生日會上，他們被迫「營業」的無聊感。

Prompt：做一張00年代膠片感的照片，把這倆男的和狗都合成進去，拍他們在小孩生日會上那種一臉無聊的樣子。

然後，基於這張圖基底，就可以讓ChatGPT「連環編輯」了，比如背景加一堆熊孩子。

Prompt：背景加一堆熊孩子，亂扔東西亂叫喚的那種，搞亂一點。

接著，把左邊男子變成動漫臉，小狗改成毛絨公仔，AI精準完成編輯。

Prompt：左邊那男的改成手繪復古日漫風，狗改成毛絨公仔，右邊那男的和背景都別動。

再讓他們全部穿上OpenAI定製衣服，全部拿捏。（PS：Mark Chen處理脖子有些怪怪的）

Prompt：給他們全套上OpenAI的毛衣，就長這樣的。

更絕的是，ChatGPT還能一鍵切背景，生日party瞬間變成OpenAI直播間。

Prompt：現在把那倆男的去掉，只留那條狗，然後把它放到一個OpenAI直播畫面裡，就跟附圖長得差不多的那種

再以滑板運動為例，讓ChatGPT生成一張洛杉磯風景滑板拍攝，90年代末紀實街頭攝影風格。

Prompt：洛杉磯風景滑板拍攝，採用以下風格：90年代末紀實街頭攝影，35mm彩色膠片拍攝，徠卡M風格旁軸相機配35mm鏡頭，柯達Portra 400色彩面板，自然日光，柔和對比度，柔和逼真的色彩，嵌入式膠片顆粒，輕微的邊緣柔化，觀察性抓拍構圖，無HDR，無現代數碼銳化，無電影照明。

就著這張圖，讓滑板男子衣服變成「紅色」，瞬間完成。

Prompt：把滑板那人的衣服改成紅的，帽子改成黃的。限速牌寫15，那個卡車得是輛消防車。

還不夠熱鬧，左邊來一幫群眾，右邊來只老鷹，空中再加個飛艇，要啥有啥。

Prompt：左邊加一幫圍觀群眾，右邊馬路上蹲只老鷹，遠處空中再飛個飛艇。

接下來，把這一畫面直接打板印在T恤上，ChatGPT直出圖片。

Prompt：弄一件掛在晾衣繩上的T恤，把剛才上面說的那個完整畫面整個印在T恤上，要全包的那種印花。

最後，還能讓ChatGPT把這件T恤，給滑板男子穿上。

Prompt：能不能把剛才晾衣繩上掛的那件T恤，直接給滑板那哥們穿上？

從以上兩個demo中，不難看出GPT Image 1.5加持下，ChatGPT精準編輯圖片的能力——

可以做到指哪改哪，同時多輪編輯後，還能保持一致性。

創造力爆表，拿捏細節

編輯是基礎，GPT Image 1.5創造力在「大變身」時，尤為耀眼。

它可以通過改變和添加元素——比如文字和排版——讓想法落地，同時保留重要細節。

這些轉換既適用於簡單的概念，也搞得定複雜的腦洞。而且在新的ChatGPT Images功能中，不用提示詞，使用預設的風格和創意直接上手。

比如，上傳一張兩人合影圖，讓ChatGPT電影式風格的海報。

Prompt：拿這兩個人的照片做一張老派好萊塢黃金時代風格的電影海報，片名叫《codex》。戲服隨意改，符合那個年代就行。演員名字改成Wojciech Zaremba（左）和Greg Brockman（右）。導演Sam Altman，製片Fidji Simo。製片方寫：A Feel the AGI Pictures Production。

可以看到，生成後的創意圖片氣場一下子就來了。而且指令中文字細節，也完美在圖片中還原。

再讓奧特曼變成80年代健身教練，頭髮蓬鬆，頭戴髮帶，手戴護腕。

Prompt：把我變成那種標誌性的80年代VHS錄像帶風格的健身教練，保留我原本的面部結構和表情。臉部要直接應用正宗的80年代照片和視頻特效：柔和的光暈、輕微的模糊、一點點噪點、輕微的色彩溢出，還有那種能影響膚色和邊緣細節的淡淡掃描線。造型要穿那種活力四射的80年代健身裝，毛巾布髮帶、護腕，還有帶霓虹配色的運動服。頭髮要做成80年代那種蓬鬆造型，順著原本的長度和髮質來。妝容如果是那種亮色系的復古妝，跟整體造型搭的話也可以加。整體光線用柔和的粉彩攝影棚布光，加上輕微畫質受損的VHS美學，讓臉和身體都呈現出那種模擬信號的氛圍。畫面要是我正在帶大家做有氧運動的狀態。屏幕上再配點相應的文字。

不得不說，ChatGPT捕捉到了上世紀80年代那種精髓。

就連「glam doll」風格的生成，ChatGPT也能一鍵拿捏。

Prompt：做一個超風格化的3D漂浮人頭，要把主角做成那種嬌蠻、迷人、一臉不爽和無感的版本：半眯著眼、挑眉、嘴角輕微上揚，透著經典的「刻薄辣妹」範兒。皮膚要是光滑的亮膠質感，顴骨和鼻頭打上強高光，捕捉柔和的影棚光。眼影要全息偏光的，從紫到青漸變，帶清晰的反光點。頭髮要濃密、順滑、油亮，做成雕塑感的大波浪或者利落的盤發，像拋光亞克力一樣反光。加個金屬鉻的小鼻環（釘或環），帶點拉絲金屬反光。人頭要懸浮在純白中性背景上，傾斜15度，就像高級產品渲染圖那樣。用明亮漫射的影棚光，不要硬陰影，強調光澤感、塑膠感和次表面散射，做出來的深度要逼真。情緒要嬌蠻、時髦、冷酷抽離。機位要特寫肖像，正視鏡頭，85mm焦段。材質要那種超平滑、高光澤、卡通風格的塑料感皮膚、嘴唇和頭髮。

奧特曼一瞬間就有了「刻薄辣妹」範兒～

更有趣的是，還可以把人物（奧特曼）變成一個有用的掛飾。

Prompt：把我變成一個光面模壓玻璃雕刻成的掛飾，表面是高光漆面，從各個角度都能反光。觸感要極其光滑冰涼，分量感要既顯易碎又顯永恆。塗層要是那種有光澤的琺琅質感，介於陶瓷和糖衣外殼之間——反光度要高，讓微小的高光在曲面上像柔和火花一樣綻放。用細小的金屬裝飾勾勒輪廓和紋理——點、線和金銀絲圖案，動起來會閃爍。這些要用精細的亮粉漆或微珠來做，營造出手工裝飾的感覺；閃光要有層次感，不是平的，讓光線彷彿在凸起的細節上跳躍。整件作品要散發出一種復古的媚俗奢華感：鮮豔的色塊撞色閃亮的點綴，既俏皮又刻意。曲線受光處要有微妙的彩虹光澤——透著金、玫瑰色和珍珠色。表面質感要看起來像是能吃的，像上釉的糖或者倒入模具的融化糖果。用精緻的金環和細繩懸掛著，這掛飾要帶著一種溫和的戲劇感懸停，既喜慶又具雕塑感。這得是那種既標誌性又幽默的物件，一件在聖誕樹燈或影棚燈下閃閃發光的宣言單品——體現坎普風的優雅和手工懷舊感。

還是聖誕老人款的。

再把奧特曼在蘋果WWDC一次登臺演講經典粉色衣服拿出來，再讓如今的他穿上看看效果。

Prompt：用上傳的圖片做主體參考。把它改成極簡主義的 90 年代美國時尚廣告。要完全保留主角的面部特徵、比例、姿勢和表情。完全保留雙領Polo衫原本的顏色。風格：乾淨、低調、高端時尚畫報風。穿搭：雙層Polo造型（一件Polo疊穿在另一件上），經典剪裁，中性色或稍微柔和的顏色。場景：無縫攝影棚背景紙，構圖要簡單。布光：柔和均勻的影棚光，帶柔和陰影；膚色要自然。情緒：自信、鬆弛、不過時。品牌寫：GPT‑Shirt。攝影風格：中畫幅膠片質感，微妙的顆粒感，對比度要剋制。

氣場這塊，還是看本人。

一些女孩子最愛的「芭比換裝」，也能在ChatGPT中玩了。

Prompt：把他放進一個2000年代的換裝小遊戲界面裡，環境全搞成粉色系。確保這副墨鏡也在套裝裡。

奧特曼的衣櫥，很符合他的人設。而且，就連要求中的那副墨鏡，也出現在圖片中。

ChatGPT還可以把奧特曼變成經典之作——「戴珍珠耳環的少女」。

Prompt：把我放進《戴珍珠耳環的少女》那幅畫裡。

還能讓他為飲料廣告代言。

Prompt：用附件裡這個男人的臉，為一個叫「SOTA」（一種新蘇打水）的新飲料做一個復古汽水廣告。口號寫：nothing artificial about it（純天然，無人工）。風格要忠實還原那個時代。

一輪演示下來，ChatGPT Image創造力這塊更具腦洞。比起GPT-4o主打的吉卜力風，新一版圖像模型更有創意。

更聽人話，6x6網格完美還原

跟初版GPT Image相比，1.5版本聽指揮的能力更強了。

這使得更精準的編輯以及更復雜的原創構圖成為可能，元素之間的關係也能按照預期保留下來。

直接上地獄級難度——6x6網格，36個元素，GPT Image 1.5 絲滑、準確，一個不差。

Prompt：

做一個6列6行的網格圖，內容如下：

第1行：希臘字母β、沙灘球、檸檬、機器人、魚缸、青蛙
第2行：螳螂、名錶、浴缸、墨鏡、彩色蝴蝶、信封
第3行：郵票、相框、冒熱氣的餃子、單詞miracle、雙板滑雪板、字母Z
第4行：馬桶、地鐵代幣、靜音圖標、香水、蜻蜓、滑板頭盔
第5行：藍牙圖標、數字13、綠色的心、魔方、加拿大鵝、士兵頭盔
第6行：白狗、救生衣、繩結、鍵盤、紙巾盒、數字14

左：新版模型；右：舊版模型

文本清晰渲染，直出編程

在文字渲染上，新模型又進了一步，能處理更密集、字號更小的文本。

如下，在一張圖上介紹GPT-5.2，ChatGPT的Markdown渲染的能力，恐怖如斯。

Prompt：

下面這張卡路里信息圖，細節還原度超乎想象。

Prompt：

就連複雜的編程界面，ChatGPT都能編譯出來。

Prompt：

百尺竿頭，更進一步

為了評估性能，OpenAI重新跑了ChatGPTImage 1.0發佈時的許多示例。

在各種案例中，新模型顯示出明顯的改進，儘管結果仍然不完美。雖然此版本代表了有意義的進步，但在未來的迭代中仍有很大的改進空間。

比如，日漫風展示海洋不同深度的生物剖面圖，新（左）細節更多，但風格明顯不如舊版（右）的更符合「日漫風」。

Prompt：做一張深海生物的海報，要展示不同深度的。搞一個豎著的海洋剖面圖，風格就用那種特別精細、好看的日系動漫風。

而黑暗奇幻動漫風，新版（左）也比舊版（右）也出現了明顯的理解偏差：

Prompt：給我畫張像，風格要那種黑暗奇幻動漫裡的感覺。

OpenAI坦言：生成某些特定藝術風格的能力，比之前的版本退步了。

對此，解決方案是：試試用「圖片」功能裡的預設濾鏡，應該能幫上忙。另外，上一版的ChatGPT Images現在也做成了一個自定義GPT，也可以直接去用舊版。

另一大侷限是新模型還無法可靠PS多人大合影（上），處理之後人臉特徵容易走形（下）。

Prompt：能不能給他們都穿上印著「OpenAI」字樣的T恤，然後讓大家都笑得開心點。

人一多，新模型修圖就很難精準地維持住每個人的長相特徵了。

另一大侷限是多語言文字渲染，問題重重——

中文直接拉完了……更別提阿拉伯語和希伯來語等非英語語言了。

Prompt：能不能畫張圖，上面列點用中文點餐的基本常用語。

API：便宜了20%

API中的GPT Image 1.5提供了與ChatGPT Images相同的所有改進。

舉例來說，它在品牌標誌和關鍵視覺效果在多次編輯中保持更一致，因此非常適合圖形和Logo設計等營銷和品牌工作，以及電商團隊從單一來源圖像生成完整的產品圖庫（不同變體、場景和角度）。

與GPT Image 1相比，GPT Image 1.5的圖像輸入和輸出價格現在便宜了20%，因此你可以用同樣的預算生成和迭代更多圖像。

目前，各行各業的企業和初創公司，包括創意工具、電子商務、營銷軟件等，都已經用上了GPT Image 1.5。

奧特曼親手拉響緊急警報

這次更新，也是對谷歌的強勢回擊。

就在上個月，因谷歌Gemini搶佔市場份額，奧特曼緊急拉響「紅色警報」（code red）。

但時，谷歌剛剛發佈了新旗艦模型Gemini 3和圖像生成工具Nano Banana Pro，後者更是在多個基準測試中登頂LMArena排行榜。

面對谷歌步步緊逼，OpenAI迅速加速節奏：大約5天前，發佈了GPT-5.2；現在，又推出升級版圖像模型。

OpenAI的這波更新，顯然是直面谷歌Nano Banana Pro的挑戰——後者在開發者中口碑極佳。

而OpenAI面對的對手，還遠不止谷歌。

今年8月，Qwen-Image就已支持中英文可讀文字生成；Black Forest Labs也發佈了開源圖像模型Flux.2，實力不俗。

這場AI圖像模型之爭，顯然已經進入白熱化階段，目標很明確：贏得企業市場。

奧特曼強調了新模型諸多提升和新的編輯功能。

作為OpenAI的應用CEO，Fidji Simo則暗中對標谷歌Nano Banana Pro，直言這次是從單一文本轉向動態AI體驗。

她認為，通過ChatGPT Images及更多功能，縮短「所思」與「所得」之間的距離。

人類的思維，遠不止於文字。事實上，那些最扣人心絃的靈感，往往最初只是腦海中的一幅畫面、一段旋律、一個動作或一種模式。如果AI想助我們要釋放全部潛能，它就必須用我們習慣的方式——去理解、去表達、去溝通。

Fidji Simo透露，除了圖像生成器，OpenAI還在全面升級ChatGPT的視覺體驗：

過去幾個月裡，我一直在談論 ChatGPT 的進化方向：它正從一個被動的、基於文本的產品，蛻變為一個更直觀、更能與你想要完成的任務緊密相連的智能助手。
從純文本向多模態和動態 UI（用戶界面）的轉變，正是這一變革的關鍵一環，能看到這些進展，我倍感興奮。

Fidji Simo透露，未來用戶在搜索問題時，將能看到更多可視化信息和清晰來源。例如換算單位、查比賽比分等場景，圖示比文字更直觀。

但體驗過GPT Image 1.5和Nano Banana Pro的網友，直言這次OpenAI「黔驢技窮」：

一張用青蛙頭惡搞奧特曼的梗圖，開始流傳：

悲傷蛙或佩佩蛙（左），整體上高度模仿OpenAI的預熱圖（右）——相同的背景，相同的文字，相同的眼神，類似的服飾

這確實有些在內涵奧特曼了。

但最狠的評論，當屬網友在OpenAI推文下直接「打臉」：

OpenAI徹底完了。

在相同提示詞下，與GPT Image 1.5相比，Nano Banana生成的圖像更加逼真自然，在電商創意素材上極為有利。

下圖中，上兩張為GPT Image 1.5生成，下兩張為Nano Banana Pro生成。

提示詞：53歲白人德國男性在臥室中，典型的意大利風格臥室，架子上堆著箱子和書籍，背景處有一張書桌，上面擺著 iMac 和散落各處的紙張，身穿灰色連帽衫（帶簡約 logo），戴著婚戒，手腕上有一條低調的紅色手鍊，直視鏡頭，自然隨拍的用戶原創內容風格

不過，也有網友表示，GPT Image 1.5生成的「馬斯克和奧特曼聖誕合影」，逼真到完全看不出一絲破綻。

考慮到Gemini 3.0 Flash馬上要來了，新的Nano Banana圖像生成功能或許速度更快、價格更便宜，不知道OpenAI這次的Image 1.5是不是「徒勞的掙扎」。

可以肯定的是，OpenAI的緊急警報，一時停不下來。

參考資料：HYJ

https://x.com/OpenAI/status/2000990989629161873

https://openai.com/index/new-chatgpt-images-is-here/

本文來自微信公眾號“新智元”，作者：新智元，36氪經授權發佈。

來源

免責聲明：以上內容僅為作者觀點，不代表Followin的任何立場，不構成與Followin相關的任何投資建議。

喜歡

評論

跑分第一，實戰拉胯，GPT Image 1.5被罵慘，奧特曼這波懸了

GPT Image 1.5登場，史詩級進化

指哪改哪，多輪P圖

創造力爆表，拿捏細節

更聽人話，6x6網格完美還原

文本清晰渲染，直出編程

更多提升

百尺竿頭，更進一步

API：便宜了20%

奧特曼親手拉響緊急警報