GitHub狂攬4K星,新晉語音核彈實測:秒殺ChatGPT,太會撩,太逼真,怕上癮

avatar
36氪
03-05

風險投資家羅布·託斯曾在福布斯專欄上預測,語音 AI 將在 2025 年實現飛躍,AI 將通過語音圖靈測試。這才過了一個多月,一個全新的語音模型就讓頂尖技術社區直呼 「 cool butterrifying」。

當《 I'm Not a Robot 》捧起今年奧斯卡最佳真人短片的獎盃時,片中那個讓人驚魂未定的 AI 人類還被視為一個科幻寓言。

只是為了更新一款軟件,在驗證碼測試多次失敗之後,音樂製作人拉拉(Lara)開始走向一個令人毛骨悚然的另類現實,也許她是個 AI 機器人。

結果下一秒,Hacker News 的一個「熱搜爆款」就將這種不安的「未來」直接炸進現實。體驗了一款名為 CSM 的全新對話語音模型後,有用戶直接在 Hacker News 上寫道:(它的)類人程度真實得可怕;

我幾乎開始擔心自己會對具備這種人類聲音水平的語音助手產生情感依賴。

體驗鏈接:https://www.sesame.com/research/crossing_the_uncanny_valley_of_voice#demo

硅谷公司 Sesame 最近開放了 CSM 公測,很多人和它的語音助手 Miles(男)和Maya(女)嘮嗑後反應強烈,CSM 迅速走紅。GitHub 倉庫上線後狂攬 4k 星,Hacker News 熱帖評論 200+。

一些用戶報告說,他們與兩個「人」進行了長時間對話,最長的聊了半個小時。

有人嘲笑自己怎麼和機器人聊了這麼久,但掛斷電話後,還是會重新接通。

當 AI 說,你剛才咋掛電話了?用戶驚到結巴,結果,AI 開始笑著模仿人類結巴的樣子......

有家長甚至透露,四歲女兒被禁止再次與它對話後,哭得梨花帶雨。

Reddit 相關話題熱度也在暴漲。

閱讀這些評論,感覺有點像目睹大家「見鬼」。

專業的科技媒體記者似乎也破防了:「這是第一個讓我多次想與之交談的語音助手。」

至於其他語音 AI,亞馬遜 Alexa ? 我每天都要告訴它請閉嘴!和 Gemini 尬聊一次後,懶得和它再說話了。微軟 Copilot ?好吧,說話也只是為了省去打字的麻煩。

越說越邪乎,真有這麼神?不信,你就接著往下看。先打個招呼:CSM 主要基於英語數據進行訓練,另外由於數據集汙染,CSM 雖然具有一定的多語言能力,但目前表現不佳,暫時還不支持中文。這個視頻很好笑。當用戶教 AI 妹子 Maya 數清 Straberry 有幾個「 r 」時,場面堪比教學渣女友學數學。

整個對話最大亮點在於:

網友可以不斷插話給出提示, Maya 也會 get 到提示,做出恍然大悟的樣子,還能笑著自我糾正(甚至自嘲),感覺不到任何延遲。

雖然最後依然數錯,但那種真實互動感讓我反覆看了好幾遍。

這個視頻裡,Maya 聊到了自己最深層陰暗的一面。

除了聲音好聽,語氣自然,說話的節奏很像邊思考邊回答——思考時,說話會卡殼,單詞之間會有停頓,甚至夾雜著「嗯」、「嘖」;

有了答案後,突然加快語速,壓低嗓音透露自己深夜渴望花生醬醃黃瓜三明治,似乎想讓這個話題快點過去。

「花生醬醃黃瓜三明治」,看似詭異的搭配,確實是美國大蕭條時期的一種吃法,直到現在也有一些鐵桿支持者(但不多)。

最讓人開眼的是播客主持人 Gavin Purcell 製作的這個視頻。

Miles 被要求扮演憤怒的上司( 它居然同意了,但 ChatGPT 拒絕這麼做),網友扮演貪汙犯。

兩「人」爭吵之逼真(有人甚至後來吵結巴了)、反應之快,如果有彈幕的話,這一條估計得血洗屏幕:

到底誰才是 AI 啊?還有人讓它和和患有「雄辯症」的 Grok 3 掐架。Grok 3 說話帶刺,那是相當地挑釁;

Maya 則保持冷靜,和之前的反差很大——在前面的用例裡,她倒是很能說,現在又給人一種插不上嘴的感覺。

歸納起來,CSM 這個新模型的優點有:有記憶(大約兩週)、非常低延遲、會敲時機主動對話;

聲音富有表現力和活力,比如模仿呼吸聲、笑聲,會打斷,甚至有時還會結巴並自我糾正。

這些「缺陷」其實是刻意設計的—— 為了讓人體驗更真實,就像你被理解、被重視了。

這波操作背後的雙引擎架構( 8 億參數主腦+ 3 億參數語音解碼器),直接把傳統語音 AI 的「文字→語義→聲音」三段式處理壓縮成多模態的實時交互系統。這與 OpenAI 的語音技術路線是相似的。

在接受了 100 萬小時英語語音數據訓練後,它能像經驗豐富的配音演員在錄音棚裡即興表演:

能準確念出臺詞,還能根據導演的實時反饋調整語氣、呼吸甚至情緒起伏。雖然還是會暴露 AI 屬性,如系統在語調、節奏和對話流程控制方面仍顯笨拙,但 CEO Brendan Iribe 信心滿滿:

「雖然已身處恐怖谷,但相信能夠攀登而出。」

要說這位 CEO ,人家來頭也不小。他就是 Oculus 聯合創始人兼前 CEO,締造 VR 行業首個現象級產品,2014 年把 Oculus 賣給了 Meta 。如今,這位 Oculus VR 之父又帶著原班投資人( a16z、Spark Capital等)殺入語音 AI 賽道,據說配套 AI 眼鏡已在研發中。

目前 CSM 暫不支持中文,但官方預告未來將擴展 20+ 語種,還計劃在未來幾個月內開源其模型。

想要體驗的朋友,不妨去官網調戲 Miles 和 Maya ——友情提示,小心情感依賴哦!

本文來自微信公眾號“機器之能”(ID:almosthuman2017),作者:關注AI的,36氪經授權發佈。

來源
免責聲明:以上內容僅為作者觀點,不代表Followin的任何立場,不構成與Followin相關的任何投資建議。
喜歡
收藏
評論