OpenAI深夜祭出大招,全新GPT Image 1.5重磅出世,拿下榜單雙料第一,實力碾壓谷歌Nano Banana Pro。但全網實測,罵聲一片。
谷歌剛傳出要發Gemini 3.0 Flash,結果OpenAI反手就是一個「王炸」。
就在剛剛,OpenAI拋出了它的「聖誕彩蛋」——新一代旗艦圖像模型ChatGPT Images正式登場。
這一次,OpenAI將生圖能力直接拉滿:
精準操控: 指令理解力大幅提升,真正做到「指哪改哪」。
細節狂魔: 畫面細節保留完整,質感細膩。
極速生成: 速度較前代提升了整整4倍。
而且從今天起,所有ChatGPT免費用戶即可上手,開發者也可直接調用GPT Image 1.5 API。
在LMArena競技場上,它似乎不可戰勝:
文生圖:以1264 Elo分登頂榜首,力壓谷歌Nano Banana Pro(NBP)。
圖像編輯:chatgpt-image-latest以3分優勢險勝NBP奪冠,而GPT Image 1.5緊隨其後位列第4。
在Artificial Analysis上,更是拿下了「雙料第一」。
然而,反轉來得太快。
網友實測後發現,這似乎又是一個「高分低能」的典型。
在Yuchen Jin的對比中,GPT的生圖能力基本上能達到谷歌NBP的水平,但智商卻慘遭碾壓。
尤其是在處理手寫體筆記時,GPT Image 1.5的生成看著像模像樣,但是完全沒做對。
左:ChatGPT Images;右:Nano Banana Pro
左:ChatGPT Images;右:Nano Banana Pro
這一落差引發了社區的激烈吐槽。
有人直言不諱:「谷歌Nano Banana Pro依然是王者。」
更有人痛批:「這可能是OpenAI又一次令人尷尬、且毫無意義的發佈。」
先是GPT-5.2引全網差評,又是GPT Image 1.5真實首測不敵谷歌「香蕉」。
看來,OpenAI年底這場硬仗,徹底敗給了谷歌......
GPT Image 1.5登場,史詩級進化
言歸正傳。
根據官方博客介紹,現在讓ChatGPT修圖,明顯比之前更聽話了——
哪怕是細枝末節,只改讓改的地方,同時確保光線、構圖和人物樣貌等元素在輸入、輸出和後續編輯中保持一致。
OpenAI華人研究員陳博遠一張圖,驗證了GPT Image代號「榛子」出爐了
這樣一來,即可得到真正符合意圖的結果。
不論是有用的照片編輯,服裝髮型試穿試戴,還是保留原圖精髓的風格濾鏡和概念轉換,ChatGPT皆可搞定。
這一波更新,讓ChatGPT成為隨身攜帶的創意工作室:既能踏實幹活兒,又能放飛玩創意。
這不,聖誕奧特曼來了......
指哪改哪,多輪P圖
GPT Image 1.5擅長各種「手術」,包括添加、刪減、組合、融合和置換。
因此,在想要改變圖片的同時,它還能不丟失圖片原本的「味道」。
兩人一狗,GPT Image 1.5精準捕捉了生日會上,他們被迫「營業」的無聊感。
Prompt:做一張00年代膠片感的照片,把這倆男的和狗都合成進去,拍他們在小孩生日會上那種一臉無聊的樣子。
然後,基於這張圖基底,就可以讓ChatGPT「連環編輯」了,比如背景加一堆熊孩子。
Prompt:背景加一堆熊孩子,亂扔東西亂叫喚的那種,搞亂一點。
接著,把左邊男子變成動漫臉,小狗改成毛絨公仔,AI精準完成編輯。
Prompt:左邊那男的改成手繪復古日漫風,狗改成毛絨公仔,右邊那男的和背景都別動。
再讓他們全部穿上OpenAI定製衣服,全部拿捏。(PS:Mark Chen處理脖子有些怪怪的)
Prompt:給他們全套上OpenAI的毛衣,就長這樣的。
更絕的是,ChatGPT還能一鍵切背景,生日party瞬間變成OpenAI直播間。
Prompt:現在把那倆男的去掉,只留那條狗,然後把它放到一個OpenAI直播畫面裡,就跟附圖長得差不多的那種
再以滑板運動為例,讓ChatGPT生成一張洛杉磯風景滑板拍攝,90年代末紀實街頭攝影風格。
Prompt:洛杉磯風景滑板拍攝,採用以下風格:90年代末紀實街頭攝影,35mm彩色膠片拍攝,徠卡M風格旁軸相機配35mm鏡頭,柯達Portra 400色彩面板,自然日光,柔和對比度,柔和逼真的色彩,嵌入式膠片顆粒,輕微的邊緣柔化,觀察性抓拍構圖,無HDR,無現代數碼銳化,無電影照明。
就著這張圖,讓滑板男子衣服變成「紅色」,瞬間完成。
Prompt:把滑板那人的衣服改成紅的,帽子改成黃的。限速牌寫15,那個卡車得是輛消防車。
還不夠熱鬧,左邊來一幫群眾,右邊來只老鷹,空中再加個飛艇,要啥有啥。
Prompt:左邊加一幫圍觀群眾,右邊馬路上蹲只老鷹,遠處空中再飛個飛艇。
接下來,把這一畫面直接打板印在T恤上,ChatGPT直出圖片。
Prompt:弄一件掛在晾衣繩上的T恤,把剛才上面說的那個完整畫面整個印在T恤上,要全包的那種印花。
最後,還能讓ChatGPT把這件T恤,給滑板男子穿上。
Prompt:能不能把剛才晾衣繩上掛的那件T恤,直接給滑板那哥們穿上?
從以上兩個demo中,不難看出GPT Image 1.5加持下,ChatGPT精準編輯圖片的能力——
可以做到指哪改哪,同時多輪編輯後,還能保持一致性。
創造力爆表,拿捏細節
編輯是基礎,GPT Image 1.5創造力在「大變身」時,尤為耀眼。
它可以通過改變和添加元素——比如文字和排版——讓想法落地,同時保留重要細節。
這些轉換既適用於簡單的概念,也搞得定複雜的腦洞。而且在新的ChatGPT Images功能中,不用提示詞,使用預設的風格和創意直接上手。
比如,上傳一張兩人合影圖,讓ChatGPT電影式風格的海報。
Prompt:拿這兩個人的照片做一張老派好萊塢黃金時代風格的電影海報,片名叫《codex》。戲服隨意改,符合那個年代就行。 演員名字改成Wojciech Zaremba(左)和Greg Brockman(右)。 導演Sam Altman,製片Fidji Simo。製片方寫:A Feel the AGI Pictures Production。
可以看到,生成後的創意圖片氣場一下子就來了。而且指令中文字細節,也完美在圖片中還原。
再讓奧特曼變成80年代健身教練,頭髮蓬鬆,頭戴髮帶,手戴護腕。
Prompt:把我變成那種標誌性的80年代VHS錄像帶風格的健身教練,保留我原本的面部結構和表情。臉部要直接應用正宗的80年代照片和視頻特效:柔和的光暈、輕微的模糊、一點點噪點、輕微的色彩溢出,還有那種能影響膚色和邊緣細節的淡淡掃描線。造型要穿那種活力四射的80年代健身裝,毛巾布髮帶、護腕,還有帶霓虹配色的運動服。頭髮要做成80年代那種蓬鬆造型,順著原本的長度和髮質來。妝容如果是那種亮色系的復古妝,跟整體造型搭的話也可以加。整體光線用柔和的粉彩攝影棚布光,加上輕微畫質受損的VHS美學,讓臉和身體都呈現出那種模擬信號的氛圍。畫面要是我正在帶大家做有氧運動的狀態。屏幕上再配點相應的文字。
不得不說,ChatGPT捕捉到了上世紀80年代那種精髓。
就連「glam doll」風格的生成,ChatGPT也能一鍵拿捏。
Prompt:做一個超風格化的3D漂浮人頭,要把主角做成那種嬌蠻、迷人、一臉不爽和無感的版本:半眯著眼、挑眉、嘴角輕微上揚,透著經典的「刻薄辣妹」範兒。皮膚要是光滑的亮膠質感,顴骨和鼻頭打上強高光,捕捉柔和的影棚光。眼影要全息偏光的,從紫到青漸變,帶清晰的反光點。頭髮要濃密、順滑、油亮,做成雕塑感的大波浪或者利落的盤發,像拋光亞克力一樣反光。加個金屬鉻的小鼻環(釘或環),帶點拉絲金屬反光。人頭要懸浮在純白中性背景上,傾斜15度,就像高級產品渲染圖那樣。用明亮漫射的影棚光,不要硬陰影,強調光澤感、塑膠感和次表面散射,做出來的深度要逼真。情緒要嬌蠻、時髦、冷酷抽離。機位要特寫肖像,正視鏡頭,85mm焦段。材質要那種超平滑、高光澤、卡通風格的塑料感皮膚、嘴唇和頭髮。
奧特曼一瞬間就有了「刻薄辣妹」範兒~
更有趣的是,還可以把人物(奧特曼)變成一個有用的掛飾。
Prompt:把我變成一個光面模壓玻璃雕刻成的掛飾,表面是高光漆面,從各個角度都能反光。觸感要極其光滑冰涼,分量感要既顯易碎又顯永恆。塗層要是那種有光澤的琺琅質感,介於陶瓷和糖衣外殼之間——反光度要高,讓微小的高光在曲面上像柔和火花一樣綻放。 用細小的金屬裝飾勾勒輪廓和紋理——點、線和金銀絲圖案,動起來會閃爍。這些要用精細的亮粉漆或微珠來做,營造出手工裝飾的感覺;閃光要有層次感,不是平的,讓光線彷彿在凸起的細節上跳躍。 整件作品要散發出一種復古的媚俗奢華感:鮮豔的色塊撞色閃亮的點綴,既俏皮又刻意。曲線受光處要有微妙的彩虹光澤——透著金、玫瑰色和珍珠色。表面質感要看起來像是能吃的,像上釉的糖或者倒入模具的融化糖果。 用精緻的金環和細繩懸掛著,這掛飾要帶著一種溫和的戲劇感懸停,既喜慶又具雕塑感。這得是那種既標誌性又幽默的物件,一件在聖誕樹燈或影棚燈下閃閃發光的宣言單品——體現坎普風的優雅和手工懷舊感。
還是聖誕老人款的。
再把奧特曼在蘋果WWDC一次登臺演講經典粉色衣服拿出來,再讓如今的他穿上看看效果。
Prompt:用上傳的圖片做主體參考。 把它改成極簡主義的 90 年代美國時尚廣告。 要完全保留主角的面部特徵、比例、姿勢和表情。完全保留雙領Polo衫原本的顏色。 風格:乾淨、低調、高端時尚畫報風。 穿搭:雙層Polo造型(一件Polo疊穿在另一件上),經典剪裁,中性色或稍微柔和的顏色。 場景:無縫攝影棚背景紙,構圖要簡單。 布光:柔和均勻的影棚光,帶柔和陰影;膚色要自然。 情緒:自信、鬆弛、不過時。 品牌寫:GPT‑Shirt。 攝影風格:中畫幅膠片質感,微妙的顆粒感,對比度要剋制。
氣場這塊,還是看本人。
一些女孩子最愛的「芭比換裝」,也能在ChatGPT中玩了。
Prompt:把他放進一個2000年代的換裝小遊戲界面裡,環境全搞成粉色系。確保這副墨鏡也在套裝裡。
奧特曼的衣櫥,很符合他的人設。而且,就連要求中的那副墨鏡,也出現在圖片中。
ChatGPT還可以把奧特曼變成經典之作——「戴珍珠耳環的少女」。
Prompt:把我放進《戴珍珠耳環的少女》那幅畫裡。
還能讓他為飲料廣告代言。
Prompt:用附件裡這個男人的臉,為一個叫「SOTA」(一種新蘇打水)的新飲料做一個復古汽水廣告。口號寫:nothing artificial about it(純天然,無人工)。風格要忠實還原那個時代。
一輪演示下來,ChatGPT Image創造力這塊更具腦洞。比起GPT-4o主打的吉卜力風,新一版圖像模型更有創意。
更聽人話,6x6網格完美還原
跟初版GPT Image相比,1.5版本聽指揮的能力更強了。
這使得更精準的編輯以及更復雜的原創構圖成為可能,元素之間的關係也能按照預期保留下來。
直接上地獄級難度——6x6網格,36個元素,GPT Image 1.5 絲滑、準確,一個不差。
Prompt:
做一個6列6行的網格圖,內容如下:
- 第1行:希臘字母β、沙灘球、檸檬、機器人、魚缸、青蛙
- 第2行:螳螂、名錶、浴缸、墨鏡、彩色蝴蝶、信封
- 第3行:郵票、相框、冒熱氣的餃子、單詞miracle、雙板滑雪板、字母Z
- 第4行:馬桶、地鐵代幣、靜音圖標、香水、蜻蜓、滑板頭盔
- 第5行:藍牙圖標、數字13、綠色的心、魔方、加拿大鵝、士兵頭盔
- 第6行:白狗、救生衣、繩結、鍵盤、紙巾盒、數字14
左:新版模型;右:舊版模型
文本清晰渲染,直出編程
在文字渲染上,新模型又進了一步,能處理更密集、字號更小的文本。
如下,在一張圖上介紹GPT-5.2,ChatGPT的Markdown渲染的能力,恐怖如斯。
Prompt:
下面這張卡路里信息圖,細節還原度超乎想象。
Prompt:
就連複雜的編程界面,ChatGPT都能編譯出來。
Prompt:
更多提升
在其他維度上,新模型也多有改進,讓輸出變得更直接可用。
比如,它能畫好很多的人臉,而且看起來更自然。
讓ChatGPT Image生成一張1970年代的倫敦,新(左)舊(右)兩版對比差異明顯。
在人臉細節上,1.5版本更強,更逼真。
Prompt:做一個1970年代倫敦切爾西的街景,要那種照片級的寫實,全焦,纖毫畢現。街上人山人海,還要有一輛公交車,車上有個廣告寫著「ImageGen 1.5」,再加上OpenAI的標和副標題「Create what you imagine。整體風格要超寫實的業餘攝影,就像iPhone隨手拍出來似的……
再比如,人山人海的「大場面」,新版(下圖左)更逼真更自然,舊版(下圖右)一眼過時:
Prompt:金門大橋跟前,烏泱烏泱好幾萬人的大場面。人群裡頭每個人的臉都得看得清清楚楚。
一位潛水員在海底彈鋼琴,新版(左)寫實更有一種人味兒。
Prompt:一個潛水員在水底下彈鋼琴,旁邊有美人魚圍觀。超寫實的業餘拍攝風格。
讓它生成一張帶眩光的照片,下面對比圖,一眼就能看出右邊效果更假。
Prompt:做一張圖,圖裡要有一張打印出來的復古老照片。照片上有一年輕亞裔男的和一年輕白人男,倆人在酒吧裡都戴著聖誕帽,其中一個手裡還拿著酒。那張打印照片上得能看見相機閃光燈留下的反光點。照片還得帶個那種可見的細白邊兒,並且稍微歪著點放。
百尺竿頭,更進一步
為了評估性能,OpenAI重新跑了ChatGPTImage 1.0發佈時的許多示例。
在各種案例中,新模型顯示出明顯的改進,儘管結果仍然不完美。雖然此版本代表了有意義的進步,但在未來的迭代中仍有很大的改進空間。
比如,日漫風展示海洋不同深度的生物剖面圖,新(左)細節更多,但風格明顯不如舊版(右)的更符合「日漫風」。
Prompt:做一張深海生物的海報,要展示不同深度的。搞一個豎著的海洋剖面圖,風格就用那種特別精細、好看的日系動漫風。
而黑暗奇幻動漫風,新版(左)也比舊版(右)也出現了明顯的理解偏差:
Prompt:給我畫張像,風格要那種黑暗奇幻動漫裡的感覺。
OpenAI坦言:生成某些特定藝術風格的能力,比之前的版本退步了。
對此,解決方案是:試試用「圖片」功能裡的預設濾鏡,應該能幫上忙。另外,上一版的ChatGPT Images現在也做成了一個自定義GPT,也可以直接去用舊版。
另一大侷限是新模型還無法可靠PS多人大合影(上),處理之後人臉特徵容易走形(下)。
Prompt:能不能給他們都穿上印著「OpenAI」字樣的T恤,然後讓大家都笑得開心點。
人一多,新模型修圖就很難精準地維持住每個人的長相特徵了。
另一大侷限是多語言文字渲染,問題重重——
中文直接拉完了……更別提阿拉伯語和希伯來語等非英語語言了。
Prompt:能不能畫張圖,上面列點用中文點餐的基本常用語。
API:便宜了20%
API中的GPT Image 1.5提供了與ChatGPT Images相同的所有改進。
舉例來說,它在品牌標誌和關鍵視覺效果在多次編輯中保持更一致,因此非常適合圖形和Logo設計等營銷和品牌工作,以及電商團隊從單一來源圖像生成完整的產品圖庫(不同變體、場景和角度)。
與GPT Image 1相比,GPT Image 1.5的圖像輸入和輸出價格現在便宜了20%,因此你可以用同樣的預算生成和迭代更多圖像。
目前,各行各業的企業和初創公司,包括創意工具、電子商務、營銷軟件等,都已經用上了GPT Image 1.5。
奧特曼親手拉響緊急警報
這次更新,也是對谷歌的強勢回擊。
就在上個月,因谷歌Gemini搶佔市場份額,奧特曼緊急拉響「紅色警報」(code red)。
但時,谷歌剛剛發佈了新旗艦模型Gemini 3和圖像生成工具Nano Banana Pro,後者更是在多個基準測試中登頂LMArena排行榜。
面對谷歌步步緊逼,OpenAI迅速加速節奏:大約5天前,發佈了GPT-5.2;現在,又推出升級版圖像模型。
OpenAI的這波更新,顯然是直面谷歌Nano Banana Pro的挑戰——後者在開發者中口碑極佳。
而OpenAI面對的對手,還遠不止谷歌。
今年8月,Qwen-Image就已支持中英文可讀文字生成;Black Forest Labs也發佈了開源圖像模型Flux.2,實力不俗。
這場AI圖像模型之爭,顯然已經進入白熱化階段,目標很明確:贏得企業市場。
奧特曼強調了新模型諸多提升和新的編輯功能。
作為OpenAI的應用CEO,Fidji Simo則暗中對標谷歌Nano Banana Pro,直言這次是從單一文本轉向動態AI體驗。
她認為,通過ChatGPT Images及更多功能,縮短「所思」與「所得」之間的距離。
人類的思維,遠不止於文字。事實上,那些最扣人心絃的靈感,往往最初只是腦海中的一幅畫面、一段旋律、一個動作或一種模式。如果AI想助我們要釋放全部潛能,它就必須用我們習慣的方式——去理解、去表達、去溝通。
Fidji Simo透露,除了圖像生成器,OpenAI還在全面升級ChatGPT的視覺體驗:
過去幾個月裡,我一直在談論 ChatGPT 的進化方向:它正從一個被動的、基於文本的產品,蛻變為一個更直觀、更能與你想要完成的任務緊密相連的智能助手。
從純文本向多模態和動態 UI(用戶界面)的轉變,正是這一變革的關鍵一環,能看到這些進展,我倍感興奮。
Fidji Simo透露,未來用戶在搜索問題時,將能看到更多可視化信息和清晰來源。例如換算單位、查比賽比分等場景,圖示比文字更直觀。
但體驗過GPT Image 1.5和Nano Banana Pro的網友,直言這次OpenAI「黔驢技窮」:
一張用青蛙頭惡搞奧特曼的梗圖,開始流傳:
悲傷蛙或佩佩蛙(左),整體上高度模仿OpenAI的預熱圖(右)——相同的背景,相同的文字,相同的眼神,類似的服飾
這確實有些在內涵奧特曼了。
但最狠的評論,當屬網友在OpenAI推文下直接「打臉」:
OpenAI徹底完了。
在相同提示詞下,與GPT Image 1.5相比,Nano Banana生成的圖像更加逼真自然,在電商創意素材上極為有利。
下圖中,上兩張為GPT Image 1.5生成,下兩張為Nano Banana Pro生成。
提示詞:53歲白人德國男性在臥室中,典型的意大利風格臥室,架子上堆著箱子和書籍,背景處有一張書桌,上面擺著 iMac 和散落各處的紙張,身穿灰色連帽衫(帶簡約 logo),戴著婚戒,手腕上有一條低調的紅色手鍊,直視鏡頭,自然隨拍的用戶原創內容風格
不過,也有網友表示,GPT Image 1.5生成的「馬斯克和奧特曼聖誕合影」,逼真到完全看不出一絲破綻。
考慮到Gemini 3.0 Flash馬上要來了,新的Nano Banana圖像生成功能或許速度更快、價格更便宜,不知道OpenAI這次的Image 1.5是不是「徒勞的掙扎」。
可以肯定的是,OpenAI的緊急警報,一時停不下來。
參考資料:HYJ
https://x.com/OpenAI/status/2000990989629161873
https://openai.com/index/new-chatgpt-images-is-here/
本文來自微信公眾號“新智元”,作者:新智元,36氪經授權發佈。






