OpenAI 將 GPT-4o 的新圖像生成功能引入 ChatGPT,效果“好得令人難以置信”

avatar
Decrypt
03-26
本文為機器翻譯
展示原文

OpenAI正在將影象生成功能直接整合到ChatGPT中,使使用者無需離開聊天介面即可建立影象。

該公司在週二宣佈了這一功能,作為其推動人工智慧工具在不同媒體中更加實用和易用的更廣泛計劃的一部分,以保持在人工智慧藝術領域的相關性。

這一功能是DALL·E 3的演進,OpenAI的影象生成器於2023年9月推出,但在喜歡下一代模型的人工智慧愛好者中失寵,包括Flux、MidJourney v6、SD 3.5、Recraft和Reve。

在此版本之前,OpenAI在同一平臺上提供兩種不同的模型,GPT生成文字,而DALL·E 3處理影象生成。

現在,GPT-4o將獨自完成所有工作,DALL·E 3將消失。

"GPT‑4o影象生成擅長準確渲染文字,精確遵循提示,並利用4o固有的知識庫和聊天上下文——包括轉換上傳的影象或將其用作視覺靈感,"OpenAI在官方部落格文章中聲稱。

DALL·E 3的整合繼續實現了公司將GPT-4o打造為"全能"模型的計劃,該模型經過多模態資料訓練,能夠處理所有任務。其結果是一個比其前身更加強大、準確和智慧的模型。

"我們知道我們讓你們等待了很久,但我們認為這真的很值得,我們認為你們會喜歡它,"OpenAI的執行長Sam Altman在展示GPT-4o新功能的影片中說。"這是如此巨大的進步,解釋給你們的最佳方式就是直接展示。"

在影片中,該公司透過多個示例展示了系統的功能,包括解釋相對論的漫畫頁面(輸入為英語和普通話)、基於個人和真實照片的定製交易卡、結合多個影象的透明背景紀念幣,以及基於極其長且詳細的提示的非常準確的影象。

該模型生成影象的速度較慢,但似乎非常準確。Altman指出,顯著的質量提升值得更長的等待時間。

"影象生成比我們之前的影象生成(模型)慢得多,但難以置信地更好。我們認為等待是非常值得的,"Altman在演示期間說。"我們還將能夠隨著時間的推移使其變得更快。"

推出似乎是逐步進行的,截至發稿時我們尚未能獲得新模型。

使用者可以根據影象的顯示方式判斷他們正在使用哪個系統:除了明顯的質量差異外,DALL·E 3的影象在載入屏幕後完全形成,而新的GPT-4o則實時從上到下逐步渲染影象。

該公司強調,這項技術的應用遠不止於建立精美影象。

"這個版本真正令人興奮的地方在於,這些模型現在可以實際視覺化他們所知道的內容,並以視覺方式將其外化,"Sam Altman邀請的OpenAI研究科學家解釋道。

這種能力允許教育應用,如詳細的科學圖表或具有準確渲染文字的資訊海報,甚至可以進行主題一致性的影象編輯。

OpenAI還實施了防護欄,以防止生成深度偽造、非法內容和去除水印。

雖然生成的影象不會有可見的水印,但它們將包含C2PA元資料以識別它們是人工智慧建立的。該公司還在開發跟蹤影象來源的工具。

該公司計劃將該功能引入其API,允許開發者將技術整合到自己的應用程式中。OpenAI的使用條款還規定,使用者將保留他們生成的影象的所有權,但需遵守公司的使用政策。

由Sebastian Sinclair和Josh Quittner編輯

來源
免責聲明:以上內容僅為作者觀點,不代表Followin的任何立場,不構成與Followin相關的任何投資建議。
喜歡
收藏
評論