為什麼要費力理解Z世代的俚語,當與動物交流可能更容易呢?
今天,谷歌推出了DolphinGemma,這是一個開源人工智慧模型,旨在透過分析海豚的咔嗒聲、哨聲和脈衝聲來解碼海豚通訊。這一公告恰逢國家海豚日。
該模型由佐治亞理工學院和野生海豚專案(WDP)合作建立,可以學習海豚發聲的結構,並能生成類似海豚的聲音序列。
這一突破可能有助於確定海豚通訊是否達到語言的水平。
DolphinGemma接受了世界上歷時最長的水下海豚研究專案的訓練,利用了WDP自1985年以來精心標記的音訊和影片資料。
該專案採用"在他們的世界,按照他們的方式"的非侵入性方法,研究了巴哈馬群島的大西洋斑點海豚。
谷歌在公告中表示:"透過識別重複出現的聲音模式、簇和可靠的序列,該模型可以幫助研究人員揭示海豚自然通訊中隱藏的結構和潛在含義,這是之前需要大量人力的任務。"
這個包含大約4億個引數的人工智慧模型足夠小,可以在研究人員在現場使用的Pixel手機上執行。它使用谷歌的SoundStream分詞器處理海豚聲音,並預測序列中的後續聲音,很像人類語言模型預測句子中的下一個詞。
DolphinGemma並非獨立執行。它與CHAT(鯨類聽力增強遙測)系統配合,將合成哨聲與海豚喜歡的特定物品(如馬尾藻、海草或圍巾)關聯,可能建立共享詞彙以進行互動。
據谷歌稱:"最終,這些模式經過研究人員使用合成聲音來指代海豚喜歡玩耍的物品進行增強,可能會建立與海豚的共享詞彙,用於互動交流。"
現場研究人員目前使用Pixel 6手機實時分析海豚聲音。
團隊計劃在2025年夏季研究季升級到Pixel 9裝置,該裝置將整合揚聲器和麥克風功能,同時同時執行深度學習模型和模板匹配演算法。
轉向智慧手機技術極大地減少了對定製硬體的需求,這對海洋現場工作來說是一個關鍵優勢。DolphinGemma的預測能力可以幫助研究人員更早地預測和識別發聲序列中的潛在模仿,使互動更加流暢。
DolphinGemma加入了旨在破解動物通訊密碼的其他幾個人工智慧計劃。
地球物種專案(ESP)這個非營利組織最近開發了NatureLM,這是一個音訊語言模型,能夠識別動物物種、大致年齡,以及聲音是否表示痛苦或玩耍——雖然不是真正的語言,但仍是建立某種原始通訊的方式。
該模型接受人類語言、環境聲音和動物發聲的混合訓練,即使對於之前未接觸過的物種也顯示出有希望的結果。
CETI專案是這一領域的另一個重要努力。
由包括倫敦帝國理工學院的邁克爾·布朗斯坦在內的研究人員領導,該專案專注於抹香鯨通訊,分析它們用於遠距離通訊的複雜點選模式。
團隊已經識別出143種點選組合,這些組合可能構成一種類似的音素字母表,他們現在正在使用深度神經網路和自然語言處理技術進行研究。
雖然這些專案專注於解碼動物聲音,但紐約大學的研究人員從嬰兒發展中汲取靈感進行人工智慧學習。
他們的兒童視角對比學習模型(CVCL)透過從6個月到2歲的嬰兒頭戴攝像頭拍攝的鏡頭,從嬰兒的角度觀察世界來學習語言。
紐約大學團隊發現,他們的人工智慧可以從自然資料中高效學習,這與人類嬰兒的學習方式非常相似,與需要數萬億個詞進行訓練的傳統人工智慧模型形成鮮明對比。
谷歌計劃在今年夏天分享更新版本的DolphinGemma,可能擴充套件其在大西洋斑點海豚以外的實用性。不過,該模型可能需要針對不同物種的發聲進行微調。
WDP已廣泛關注將海豚聲音與特定行為相關聯,包括母親和幼崽用於重聚的特徵哨聲、衝突時的脈衝"尖叫"以及求偶或追逐鯊魚時使用的點選"嗡嗡聲"。
谷歌指出:"我們不再只是在聽。我們開始理解聲音中的模式,為人類和海豚通訊之間的差距可能變得更小的未來鋪平道路。"





