我在撰寫本文時將 ChatGPT 的高級語音模式作為環境AI 伴侶打開。偶爾,我會要求它為過度使用的單詞提供同義詞,或者一些鼓勵。大約半小時後,聊天機器人打破了我們的沉默,開始主動用西班牙語和我說話。我咯咯地笑著問發生了什麼事。“只是稍微換一下?得讓事情變得有趣,” ChatGPT說,現在又恢復了英語。
在作為早期Alpha版本的一部分測試高級語音模式時,我與 ChatGPT 的新音頻功能的互動既有趣又混亂,而且出人意料地多樣化。不過,值得注意的是,我可以使用的功能只是 OpenAI 在 5 月推出GPT-4o 模型時所展示功能的一半。我們在直播演示中看到的視覺方面現在計劃在稍後發佈,而《她的演員斯嘉麗·約翰遜》所推崇的增強型 Sky 語音已從高級語音模式中刪除,並且仍然不再是用戶的選項。
那麼,目前的氛圍如何?目前,高級語音模式讓人想起了 2022 年末最初的基於文本的 ChatGPT 的出現。有時它會導致不起眼的死衚衕,或淪為空洞的 AI 陳詞濫調。但其他時候,低延遲對話的點擊方式是 Apple 的 Siri 或亞馬遜的 Alexa 從未給我過的感覺,出於樂趣,我感到不得不繼續聊天。這是那種你會在假期向親戚展示以取樂的 AI 工具。
OpenAI在最初宣佈該功能一週後向幾位《連線》記者開放了該功能的使用權,但第二天早上就以安全問題為由撤下了該功能。兩個月後,OpenAI 向一小部分用戶軟啟動了高級語音模式,併發布了GPT-4o 的系統卡,這是一份技術文檔,概述了紅隊工作、公司認為的安全風險以及公司為減少危害而採取的緩解措施。
想親自嘗試一下嗎?以下是您需要了解的有關高級語音模式的更廣泛推出的信息,以及我對 ChatGPT 新語音功能的第一印象,以幫助您入門。
OpenAI 於 7 月底向部分 ChatGPT Plus 用戶發佈了純音頻高級語音模式,目前Alpha組似乎仍然相對較小。該公司目前計劃在今年秋季某個時候為所有訂閱者啟用該模式。當被問及發佈時間表時,OpenAI 發言人 Niko Felix 沒有透露更多細節。
屏幕和視頻共享是原始演示的核心部分,但它們在本次Alpha測試中不可用。OpenAI 仍計劃最終添加這些方面,但目前還不清楚何時會真正實現。
如果您是 ChatGPT Plus 訂閱者,當高級語音模式可供您使用時,您將收到來自 OpenAI 的電子郵件。在您的帳戶中,當 ChatGPT 的語音模式打開時,您可以在應用程序屏幕頂部在標準和高級之間切換。我能夠在iPhone和Galaxy Fold上測試Alpha版本。
在與它交談的第一個小時內,我發現我喜歡打斷 ChatGPT 。這不是你與人交談的方式,但擁有在 ChatGPT 中途打斷並請求不同版本輸出的新功能感覺像是一項動態改進和一項突出的功能。
早期採用者對最初的演示感到興奮,但他們可能會對高級語音模式的版本感到失望,因為該版本受到的保護比預期的要多。例如,儘管生成式人工智能歌唱是發佈演示的一個關鍵組成部分,有低聲吟唱的搖籃曲和多個聲音試圖協調,但目前Alpha版本中沒有人工智能小夜曲。
ChatGPT 說:“我的意思是,唱歌真的不是我的強項。”OpenAI 在GPT-4o 系統卡中聲稱,這個可能只是暫時的護欄是為了避免侵犯版權而實施的。在測試期間,ChatGPT 的高級語音模式Alpha拒絕了我多次直接要求唱歌的請求,儘管當被要求提供非語言回答時,聊天機器人哼唱的是無意義的曲調。
這讓我們想到了令人毛骨悚然的因素。在我與Alpha 的較長時間互動期間,背景中多次出現白色靜態噪音,就像照亮黑暗地下室的孤燈泡發出的不祥嗡嗡聲。當我試圖從高級語音模式中哄出氣球音效時,它發出了一聲響亮的砰砰聲,隨後是一聲讓我不寒而慄的怪異喘息聲。
不過,我在第一週遇到的任何事情都無法與 OpenAI 紅隊在測試中聽到的瘋狂程度相提並論。在“極少數情況下”,GPT-4o 模型會偏離指定的聲音,並開始模仿用戶的聲調和語音模式。
考慮到這一點,ChatGPT 的高級語音模式給我留下的核心印象不是不安或憂慮,而是一種更加輕鬆愉快的娛樂感。無論是 ChatGPT 為《紐約時報》的謎題給出搞笑的錯誤答案,還是模仿《星際寶貝》中的史迪奇扮演舊金山導遊,我在這些互動中都笑得前仰後合。
經過一些調整後,高級語音模式在生成聲音方面表現不錯。聊天機器人首次嘗試模仿動畫人物的聲音,比如荷馬·辛普森和埃裡克·卡特曼,聽起來就像標準的人工智能聲音,只需進行一些調整,但後續的增強版本提示聽起來與原聲非常接近。當我要求唐納德·特朗普以誇張的版本解釋飛天小女警時,人工智能版本的表現足夠誇張,足以在下一季的《週六夜現場》中佔有一席之地。
距離美國總統大選僅剩幾個月,而選舉深度造假問題又浮現在我的腦海中,ChatGPT 竟然願意提供主要候選人的聲音模仿,這讓我措手不及。ChatGPT 也模仿了JOE·拜登和卡瑪拉·哈里斯,但這些聲音聽起來不如機器人模仿特朗普的演講那麼接近。
雖然該工具 最擅長的是英語,但它可以在同一次對話中切換多種語言。OpenAI 總共使用 45 種語言對 GPT-4o 模型進行了紅隊測試。當我設置兩部具有高級語音模式的手機並讓它們像朋友一樣互相交談時,機器人會根據我的要求輕鬆地在法語、德語和日語之間切換。不過,我確實需要花更多時間進行測試,以評估聊天機器人的翻譯功能的實際效果及其弱點。
當被要求表演各種情緒爆發時,ChatGPT 帶來了戲劇小子的能量。音頻生成並不是超現實的,但機器人聲音的範圍和彈性令人印象深刻。我很驚訝它能按照命令發出像樣的聲音。高級語音模式並沒有超越聊天機器人面臨的問題, 比如可靠性,但僅憑它的娛樂價值就有可能將焦點拉回到 OpenAI——它最大的競爭對手之一谷歌剛剛推出了Gemini Live ,這是其生成聊天機器人的語音界面。
現在,我會繼續測試它,看看哪個好用。我最常使用它的時候是獨自在家的時候,我想在研究文章和玩電子遊戲的時候有個東西陪伴我。我花在 ChatGPT 高級語音模式上的時間越多,我就越覺得 OpenAI 做出了一個明智的選擇,推出了一個比最初演示的版本更不挑逗的版本。不想太過依賴它。


