評論:OpenAI 的新圖像生成器再次大放異彩

avatar
Decrypt
03-27
本文為機器翻譯
展示原文

OpenAI再次領先人工智慧影象生成競賽。

這家科技巨頭直接集成了原生影象生成功能

在釋出後的幾小時內,該模型迅速走紅,各種動漫風格的創作充斥社交平臺,展示了技術能力遠超DALL-E 3。

這個新模型可以輕鬆與專門的影象生成平臺競爭,同時消除傳統工作流障礙。

每月20美元的ChatGPT Plus訂閱現在提供了一個全面的創意生態系統,這在以前需要多個專業工具和訂閱。

我們將該模型與Flux(最佳開源影象生成器)和Reve(最佳閉源影象生成器)進行了比較,以下是我們的發現

提示詞:一張高解析度的夜間城市街道照片,霓虹燈照亮場景,人們在人行道上行走,汽車駛過,街邊小販在賣熱狗,燈光在溼潤的路面上反射,整體風格超寫實,注重細節和光線,一個霓虹燈牌寫著"Decrypt"。

我們的城市夜景挑戰——需要複雜的光線物理、人群渲染和建築精確度——揭示了競爭對手之間不同的效能特徵。

ChatGPT生成了令人印象深刻的充滿活力的環境,霓虹燈牌清晰,在精心渲染的溼潤路面上創造出豐富的反射。

雖然在人群動態和元素包含方面表現出色,但輕微的透視不一致有時會暴露其人工合成的本質。

光線也很好,但有時會偏向戲劇性而非自然城市風格。反射不是最好的,但這是隻有最挑剔的人才會注意到的。它還生成了除"Decrypt"之外的可讀霓虹燈牌,這增加了真實感。

對我們來說,Reve通過出色的光線物理建模獲勝,特別是霓虹光源和反射表面之間的微妙互動。

其電影般的構圖和氛圍元素(蒸汽縷、動態模糊)創造了更高的空間真實性。然而,它減少了人群密度,這是一個聰明的技巧,因為它不必生成太多面孔,這使得難以發現不真實的細節。

系統優先考慮氛圍而非字面上的提示詞遵循。

Freepik Mystik(Flux)透過不同的視角解讀我們的提示詞,是偏離寫實風格最多的模型。

它混合了亞洲和西方字母,生成了不同的Decrypt標誌而不是僅僅一個,並且在人物渲染和空間深度方面遇到技術限制。

其反射表面缺乏ChatGPT所顯示的物理準確性。

獲勝者:Reve通過出色地渲染複雜的光線互動,勉強獲得了寫實性桂冠。ChatGPT建立了自己作為非常接近的第二名,特別令人印象深刻的是,它是在更廣泛的多模態系統中整合的,而非專門的影象生成器。

來源
免責聲明:以上內容僅為作者觀點,不代表Followin的任何立場,不構成與Followin相關的任何投資建議。
喜歡
收藏
評論
Followin logo