將動物聲音翻譯成人類語言的競賽

avatar
WIRED
12-22
本文為機器翻譯
展示原文

在2025年,我們將看到人工智慧和機器學習被利用來取得在理解動物交流方面的真正進展,回答一個困擾人類已久的問題:"動物們在彼此說什麼?"最近的科勒-多利特爾獎提供高達50萬美元的現金獎勵給"破譯密碼"的科學家,這表明人們對機器學習和大型語言模型(LLMs)的最新技術進展能夠實現這一目標充滿信心。

多個研究小組多年來一直在研究演算法來理解動物聲音。例如,Ceti專案一直在解碼抹香鯨的點選聲和座頭鯨的歌聲。這些現代機器學習工具需要大量資料,但到目前為止,這種高質量和良好註釋的資料一直缺乏。

考慮一下像ChatGPT這樣的LLM,它們可以訪問整個網際網路上的文字資料。過去動物交流的資訊是無法獲取的。不僅人類資料庫比我們獲取動物野外資料大幾個數量級,訓練GPT-3使用了超過500GB的文字,而Ceti專案最近分析抹香鯨交流只使用了8,000多個"尾音"(或發聲)。

此外,在處理人類語言時,我們已經知道正在說什麼。我們甚至知道什麼構成一個"單詞",這在解釋動物交流時是一個巨大的優勢,因為科學家很少知道一種特定的狼嚎是否與另一種狼嚎有不同的含義,或者狼是否將嚎叫視為類似人類語言中的"單詞"。

儘管如此,2025年將帶來新的進展,包括動物交流資料的數量以及可應用於這些資料的AI演算法的型別和功能。自動錄製動物聲音的技術已經在科研團隊中廣泛使用,像AudioMoth這樣的低成本錄音裝置正在迅速流行。

大量資料正在上線,因為記錄器可以長時間留在野外,24/7記錄叢林中長臂猿的叫聲或森林中鳥類的鳴叫。過去這種大規模資料集是無法手動管理的。現在,基於卷積神經網路的新型自動檢測演算法可以快速瀏覽數千小時的錄音,提取動物聲音並根據自然聲學特徵將其聚類。

一旦獲得這些大型動物資料集,就可以使用新的分析演算法,例如使用深度神經網路來發現動物叫聲序列中的隱藏結構,這可能類似於人類語言中的有意義結構。

然而,仍然存在一個根本性的問題,即我們究竟希望用這些動物聲音做什麼?一些組織,如Interspecies.io,明確將其目標設定為"將一個物種的訊號轉換為另一個物種的連貫訊號",換句話說,就是將動物交流翻譯成人類語言。但大多數科學家都同意,非人類動物沒有自己的實際語言,至少不像我們人類的語言。

科勒-多利特爾獎的目標更為複雜,尋求"與生物體的交流或破譯其交流"。考慮到動物可能確實沒有可以翻譯的語言,破譯是一個稍微不那麼雄心勃勃的目標。目前我們不知道動物之間傳遞的資訊有多少或有多少。到2025年,人類將有可能大幅提高我們對動物不僅說了多少,而且到底在說什麼的理解。

來源
免責聲明:以上內容僅為作者觀點,不代表Followin的任何立場,不構成與Followin相關的任何投資建議。
喜歡
收藏
評論