這個人工智能模型會在恐懼中歇斯底里地尖叫

avatar
Decrypt
04-24
本文為機器翻譯
展示原文

Nari Labs釋出了�了Dia-1.6B,這是一個開源的文字轉語音模型,聲稱在生成富有情感表現力的語音方方面超越了E了ElevenLabs和LEsame等已建立的參與者。該模型非常小巧——僅有16億個引數——但仍然可以建立逼真的對話,包括笑聲、咳�情感情抑揚頓挫。

< p>它甚至可以恐懼地尖叫。

儘管這聽起來可能不是一大個巨大的技術成就,但即使OpenAI的型ChatGPT也對此此感困惑:"我無法尖叫,但我肯定可以大聲說話,"當被問及時,其聊聊機器人如此回覆。

現在,一些AI模型可以尖叫,如果你要求它們這樣做。但這並不是自然或有機發生的事顯然,這是Dia-1.6B的超能力。它理解在某些情況下,尖叫是恰當的。

Nari的模型在單個配備10GB視訊記憶體的GPU上實時運在Nvidia A4000上秒處理約個代幣。與更大的閉代案同Dia-1.6B在Apache 2.0許可下下可自由獲取,可透過Hugging FaceGitHub倉庫獲得。

"一個荒謬的目標:構建一個能與NotebookLM播客、ElevenLabs工作室和SesM相媲美的文字轉語音模型。不知怎的,我們成功了,"Nari Labs聯合創始人Toby Kim在宣佈該模型時在X上釋出。並排比較顯示,Dia在處理標準對話和非語言表達方面優於競爭對手,後者往往會使傳遞變得平淡或完全跳過非語言標籤。

AI平臺越來越關注使其文字轉語音模型能展示情感,以解決人人機互動中缺失的元素。然而,它們並不完美,大多為數型無論放還是封�往往會產生令人不安的"不間舒�"效應,從而降低使用者體驗。

我們已經嘗試並比較了幾個專注於情感語音這一特定主題的平臺,只要使用者以正確的心態並瞭解其局它們大多相相當錯。然而,這項技術仍遠未令人信服。

p。

為了解決這個問題,研究人員正在採用各種技術。有些人在帶有情感標籤的資料集上訓練模型,使AI學習與不同情感狀態相關聲聯的聲學模式。其他人則使用深度神經網路和大型語言模型來分析上下文線索以生成適當的情感調。

市場領導者之之一le一個,試圖直接從文字輸入中解釋情感上下文,檢視語言線索、句子結構和和和標點符號以推斷適當的情感語調。其旗艦模型Eleven多語言v2以在29種語言中豐富的情感表達而而聞。

p與此同時,OpenAI最近推出了"

Dia-1.6B可能開闢了新的地平在於其處理非語言交交流的方式。該模型可以在特定文字提示(如"(笑)"或"(咳�)發合成笑聲、咳嗽和清嗓子——添加了在標準文字轉語音輸出中常常缺失的真實感層面。

除了Dia-1.6B,其他值得注開專案還包括Emoti">Voice——一個多於語音引擎,持感作為可控樣式因素——以及Orpheus,以超低延遲和逼真的情感表達而聞名

但為什麼情感語音如如此困難?畢竟,AI工模型早已不聽起來像機器人<在我來情感語音合成之所以困難,為依賴的資料缺�情感感情感粒顆粒度。大多數訓練資料集捕捉的語音乾淨且易懂,但並不深刻富有表現力,"AI影片生成公公司ise執行長Kaveh Vahdat告訴Decrypt。"情感不僅僅是語調或音量;它是上下文、、節奏、緊張感和猶豫。這些特徵些往是隱式的,很少以機器可以學習的式標記。"

"即使使用情感標籤,它們也往往將真實人類情感的復�性複雜性簡化為'為'高興'或'憤怒'等廣泛類別,這與情感在語音中際作方式去甚遠,"Vah爭辯道。

我們嘗試了Dia了Dia,它確實不錯。它每秒推理生成大約一�租,確實傳達了語調情感,但如此誇張以至於聽起來不自然。這是整個問題的關鍵——模型缺乏如此多的上下文意識,以至於很難在沒有額外提示的情況下隔離單一情感,並使其連貫到人類實際相信它是自然互動的一部分。

"不舒服的谷"效應構成了特別的挑戰,因為合成語音無法無無法僅透過採用更具情感的語調來彌補中性機器人語音。

還存在更多技術障礙。AI繫系系統在未包含在其練訓中話身上測試時往表現不色佳,這是一�個在在說話者無關實驗中分類準確率低的已知問題。實時處理情感語音需要大大量算力,限制了在消費者裝置上的部署。

資料質量和偏見也帶來了重大障礙。訓練情感語音的AI需要大型、多樣的資料集,據,捕捉跨人口統計、語言和上下文的情感。在特定群體訓訓練的系統可能在其他群體中表現不佳——例如,主要在高加索語體語音訓模式訓練的AI可能難以處理其他人口統。

p或許最根本的是,一些研究人員a法�全仿情感,因為它缺乏意識。雖然AI可以基基於模式模仿情情感,,但它缺乏人類帶入情感互動的生活經驗和同理心。

看來,做一個人比看起來更難。。抱�,歉ChatGPT。

來源
免責聲明:以上內容僅為作者觀點,不代表Followin的任何立場,不構成與Followin相關的任何投資建議。
喜歡
收藏
評論