OpenAI再次領先人工智慧影象生成競賽。
這家科技巨頭直接集成了原生影象生成功能
在釋出後的幾小時內,該模型迅速走紅,各種動漫風格的創作充斥社交平臺,展示了技術能力遠超DALL-E 3。
這個新模型可以輕鬆與專門的影象生成平臺競爭,同時消除傳統工作流障礙。
每月20美元的ChatGPT Plus訂閱現在提供了一個全面的創意生態系統,這在以前需要多個專業工具和訂閱。
我們將該模型與Flux(最佳開源影象生成器)和Reve(最佳閉源影象生成器)進行了比較,以下是我們的發現
提示詞:一張高解析度的夜間城市街道照片,霓虹燈照亮場景,人們在人行道上行走,汽車駛過,街邊小販在賣熱狗,燈光在溼潤的路面上反射,整體風格超寫實,注重細節和光線,一個霓虹燈牌寫著"Decrypt"。
我們的城市夜景挑戰——需要複雜的光線物理、人群渲染和建築精確度——揭示了競爭對手之間不同的效能特徵。
ChatGPT生成了令人印象深刻的充滿活力的環境,霓虹燈牌清晰,在精心渲染的溼潤路面上創造出豐富的反射。
雖然在人群動態和元素包含方面表現出色,但輕微的透視不一致有時會暴露其人工合成的本質。
光線也很好,但有時會偏向戲劇性而非自然城市風格。反射不是最好的,但這是隻有最挑剔的人才會注意到的。它還生成了除"Decrypt"之外的可讀霓虹燈牌,這增加了真實感。
對我們來說,Reve通過出色的光線物理建模獲勝,特別是霓虹光源和反射表面之間的微妙互動。
其電影般的構圖和氛圍元素(蒸汽縷、動態模糊)創造了更高的空間真實性。然而,它減少了人群密度,這是一個聰明的技巧,因為它不必生成太多面孔,這使得難以發現不真實的細節。
系統優先考慮氛圍而非字面上的提示詞遵循。
Freepik Mystik(Flux)透過不同的視角解讀我們的提示詞,是偏離寫實風格最多的模型。
它混合了亞洲和西方字母,生成了不同的Decrypt標誌而不是僅僅一個,並且在人物渲染和空間深度方面遇到技術限制。
其反射表面缺乏ChatGPT所顯示的物理準確性。
獲勝者:Reve通過出色地渲染複雜的光線互動,勉強獲得了寫實性桂冠。ChatGPT建立了自己作為非常接近的第二名,特別令人印象深刻的是,它是在更廣泛的多模態系統中整合的,而非專門的影象生成器。