與 ChatGPT 聯手,OpenAI 打造最強 AI 繪畫工具 DALL·E 3

avatar
36氪
09-22

走在 AI 前沿的 OpenAI 於今天又一次刷新了自己,其最新發布了圖像生成工具 DALL-E 第三個版本的預覽版。不僅如此,DALL-E 3 與 ChatGPT 集成,允許用戶使用 ChatGPT 創建提示幷包含更多安全選項。

為此,OpenAI CEO Sam Altman 也親自為這款產品站臺表示,「DALL-E 3 在我看來相當驚人“。

一夕之間,設計師不知是幾家歡喜幾家愁。

01 顛覆 AI 繪畫,DALL-E 3 來了!

與其前身一樣,DALLE-3 也是一款文本生成圖像工具,可以通過自然語言提示讓系統創建新奇的圖像。

“DALL-E 3 能夠理解的細微差別和細節明顯多於我們以前的系統,讓你可以輕鬆地將想法轉換為非常精確的圖像”,OpenAI 在介紹 DALL-E 3 時在官網上寫道。

在官方示例中,OpenAI 分享了使用相同的提示詞,DALL-E 3 與 DALL-E 2 帶來的不同效果:

看完之後,不少網友調侃,DALL-E 2 是抽象派,而 DALL-E 3 則是印象派,更加基於現實的基礎上,能夠更有效地完善細節內容,使得生成的圖片更加真實與吸引人。

如果說這是 DALL-E 3 的第一個改進,那麼第二個則是最新的 DALL-E 3 在圖像合成模型方面的能力要遠遠強於現有的任何其他模型,可以更好地理解上下文,前提還是無須讓使用者專門去學習 Prompt 工程。

在官方發佈的示例中,使用者只需要隨意想象,給出一些簡單的詞語,如滿月、行人享受夜生活、年輕女子、紅頭髮、脾氣暴躁的老頭討價還價、高大與老道的人....

就能通過 DALL-E 3 得到下面這樣一幅畫,沒有什麼提示詞門檻限制:

那要問它是怎麼實現的?

這就正如文章伊始所述,DALL-E 3 是在 ChatGPT 上 "原生構建"的,並將作為 ChatGPT Plus 的集成功能推出,允許以 AI 助手作為頭腦風暴夥伴的方式對圖像進行對話式改進。

這也意味著 ChatGPT 將能根據當前對話的上下文生成圖像,這可能會帶來新穎的功能。

舉個例子,當打開 ChatGPT 對話窗口,

問:“我五歲的兒子一直在說"超級無敵向日葵刺蝟",它長什麼樣子?”

ChatGPT 能在你說話的時間給出答案:

問:“我女兒說它叫 Larry。可以給我展示一下更像的嗎?”

ChatGPT:

問:她會喜歡這些的!你能帶我看看 Larry 的房子嗎?

ChatGPT 展示:

問:你能告訴我 Larry 是“友好”的嗎?

ChatGPT:

這一點,DALL-E 3 的競品 Midjourney 雖然能很好地渲染逼真的細節,但仍需要對提示詞不斷修改優化,才能獲得自己想要的圖像。

而對於 OpenAI 的用戶而言,ChatGPT 幫助設計師完善想法、闡明設計思想,DALL-3 則幫助設計師解放雙手,二者的搭配使用也將帶來巨大潛力。

02 阻擋各種潛在風險的 OpenAI

不過,也需要注意的是,自 DALL-E 於 2021 年 1 月問世,以及 OpenAI 於 2022 年 4 月推出 DALL-E 2 以來,後者主要採用了潛在擴散模型(ldm)技術,需要通過對數據集的訓練和提示信息,將 GAN(生成對抗網絡)的感知能力、擴散模型的細節保存能力和 Transformer 的語義能力三者結合,創造出更優質的畫像。

行業中,也不乏有使用這種技術的開發商,如 Stable Diffusion。

然而,這種方式通過在訓練中抓取大量人類製作的藝術品數據集來讓 DALL-E 學習圖像概念等,自然也就帶來了一系列關於版權、道德的爭議,甚至在去年不少藝術家在很多平臺開始抗議 AI 生成的藝術品,批評這些 AI 藝術品會沒有道德地複製其創作風格等等。

針對這些爭議,OpenAI 在官方博客上表示,DALL-E 3 在設計上拒絕了要求使用在世藝術家風格圖像的請求。OpenAI 還提供了一個表格(https://share.hsforms.com/1_OuT5tfFSpic89PqN6r1CQ4sk30),創作者可以選擇不將自己的圖像用於訓練未來的模型。

除此之外,不久之前,OpenAI 發佈公告,宣佈啟動全球招募“紅隊”網絡成員,旨在引入外部力量,提前挖掘出 AI 系統存在的缺陷和風險。

在 DALL-E 3 開發維度,OpenAI 表示已經和“紅隊”成員合作,讓 DALL-E 3 系統設定為拒絕生成帶有公眾人物名字的圖像的請求,並實施了關鍵詞和圖像檢測過濾器,限制使用者製作暴力、性或仇恨內容的能力,以識別和降低潛在風險,提高了風險領域的安全等級。

另外,OpenAI 還透露其正在嘗試使用一種 "出處分類器 "工具,以幫助識別圖像是否由 DALL-E 3 生成。不過,對於這一點,很多已經使用過 AI 檢測工具的用戶認為,想要真實地檢測出 AI 圖像,近乎天方夜譚。

03 DALL-E 3 vs Midjourney

事實上,因為時下關於 AIGC 工具與內容的監管政策、法律法規、道德規範等標準的缺失,各種工具的落地自然利弊兼存。

不過,從技術維度來看,DALL-E 3 是否能夠代表 AIGC 工具再一次向前躍進的標誌?有一位名為 MattGarcia.eth 的用戶通過使用 OpenAI 官網上 DALL-E 3 相同的提示詞, 又用 Midjourney 生成了一版,我們不妨來直觀地感受一下二者的較量:

"一幅牛油果的插圖,牛油果坐在治療師的椅子上,說著'我覺得內心很空虛',中間有一個坑大小的洞。治療師是一把勺子,正在潦草地記錄著"。

”這幅插畫描繪了一顆由半透明玻璃製成的人心,矗立在驚濤駭浪中的基座上。一縷縷陽光穿透雲層,照亮了這顆心,揭示了其中的微小宇宙。地平線上鐫刻著一行醒目的大字‘尋找你心中的宇宙’。“

「舒適的客廳裡擺放著一張充滿活力的黃色香蕉形沙發,它的曲線支撐著一堆色彩繽紛的墊子。木地板上的圖案地毯增添了一絲不拘一格的魅力,一盆盆栽坐落在角落裡,伸向窗外。陽光透過窗戶。」

「一幅細緻的油畫,描繪了一位老船長駕駛他的船穿過暴風雨。鹽水濺在他飽經風霜的臉上,他的眼睛裡充滿了決心。頭頂上看到旋轉的雲,洶湧的波浪威脅著要被淹沒……」

「水墨素描風格的插圖,一隻小刺蝟用它的小爪子抓著一塊西瓜,高興地閉著眼睛咬了一口。」

「一幅古老的植物插圖,用細線和一絲水彩奇思妙想繪製,描繪了一朵奇怪的百合與維納斯捕蠅草交叉,它的花瓣準備好捕捉任何毫無戒心的昆蟲。」

「一幅完全由各種肉類組成的廣闊景觀展現在觀眾面前。溫柔多汁的烤牛肉山、雞腿樹、培根河和火腿巨石創造了一個超現實而又令人垂涎的場景。天空裝飾著意大利辣香腸太陽和薩拉米香腸雲。」

「一張以荔枝為靈感的球形椅子的照片,具有凹凸不平的白色外觀和豪華的內部,襯托著熱帶壁紙。」

「一幅籃球運動員扣籃的富有表現力的油畫,被描繪成星雲的爆炸。」

「寄居蟹坐落在溼沙中的特寫照片,附近有海泡沫,其外殼的細節和沙子的紋理得到了增強。」

「一部由擬人化的秋葉組成的民間樂隊的 2D 動畫,每個人都演奏傳統的藍草音樂,在鄉村森林環境中,點綴著滿月的柔和光線。」

你覺得兩種工具,誰更勝一籌?

最後,DALL-E 3 目前並沒有對外開放,OpenAI 表示,“目前 DALL-E 處於預覽階段,未來將於 10 月初向 ChatGPT Plus 和企業客戶提供。”

本文來自微信公眾號“CSDN”(ID:CSDNnews),36氪經授權發佈。

來源
免責聲明:以上內容僅為作者觀點,不代表Followin的任何立場,不構成與Followin相關的任何投資建議。
喜歡
收藏
評論