OpenAI 在週四揭開了 ChatGPT 長期承諾的影片功能的面紗,讓使用者可以用手機對準物體進行實時 AI 分析,這是一項自 5 月首次演示以來一直處於擱置狀態的功能。
此前,您可以輸入文字、圖表、語音或靜止照片,並與 GPT 進行互動。這項於週四晚些時候釋出的功能允許 GPT 實時觀察您,並以對話方式提供反饋。例如,在我的測試中,這種模式能夠解決數學問題、提供食譜、講故事,甚至將自己變成我女兒的新朋友,與她互動時烹飪煎餅,給出建議並透過不同遊戲鼓勵她的學習過程。
這一發布恰逢谷歌展示了其基於新推出的 Gemini 2.0 的攝像頭驅動 AI 助手的自己版本的次日。Meta 也在這個沙盒裡玩耍,擁有自己的可以透過手機攝像頭看和聊天的 AI。
不過,ChatGPT 的新功能並非人人都能使用。只有 Plus、Team 和 Pro 訂閱使用者才能訪問 OpenAI 稱之為"帶有視覺功能的高階語音模式"。Plus 訂閱費用為每月 20 美元,Pro 層級為每月 200 美元。
"我們很高興宣佈,我們正在將影片引入高階語音模式,這樣您就可以將實時影片和實時螢幕共享納入與 ChatGPT 的對話中,"OpenAI 首席產品官凱文·韋爾在週四的影片中說。
這次直播是其"OpenAI 的 12 天"活動的一部分,將在連續 12 天內展示 12 項不同的公告。到目前為止,OpenAI 已為所有使用者推出了其 o1 模型,推出了每月 200 美元的 ChatGPT Pro 計劃,引入了定製模型的強化微調,釋出了其生成影片應用 Sora,更新了其畫布功能,並透過蘋果公司的蘋果智慧功能將 ChatGPT 釋出到蘋果裝置。
該公司在週四的直播中給出了一瞥它的能力。使用者可以啟用影片模式,與聊天機器人實時互動,就像使用高階語音模式一樣。聊天機器人具有出色的視覺理解能力,能夠提供相關的低延遲反饋,使對話感覺自然。
到達這一步並非一帆風順。OpenAI 最初在 4 月底承諾"在幾周內"推出這些功能,但由於在高階語音模式中模仿女演員斯嘉麗·約翰遜的聲音(未經她的許可)而引發爭議,該功能被推遲。由於影片模式依賴於高階語音模式,這顯然減緩了推出進度。
而競爭對手谷歌也沒有閒著。Project Astra 本週剛剛進入 Android 上的"受信任測試者"手中,承諾提供類似的功能:一個會多種語言的 AI,可以利用谷歌的搜尋和地圖,並記住長達 10 分鐘的對話。
不過,這一功能目前還無法廣泛使用,預計將於明年初正式推出。谷歌還有更遠大的 AI 模型計劃,讓它們能夠實時執行任務,展現超越視聽互動的主動行為。
Meta 也在爭奪下一代 AI 互動的一席之地。其助手 Meta AI 在 9 月份亮相,展現了與 OpenAI 和谷歌新助手類似的功能,提供低延遲響應和實時影片理解。
但 Meta 正在押注使用增強現實來推動其 AI 產品,配備小型攝像頭的"隱藏式"智慧眼鏡能夠支援這些互動。Meta 稱之為 Project Orion。
當前的 ChatGPT Plus 使用者可以透過點選聊天欄旁邊的語音圖示,然後點選影片按鈕來嘗試新的影片功能。螢幕共享需要透過三點(即"漢堡")選單進行額外點選。
對於急於嘗試新影片功能的企業和教育 ChatGPT 使用者來說,1 月份是神奇的時刻。至於歐盟使用者?他們目前只能在一旁觀望。
由 Andrew Hayward 編輯





