谷歌推出人工智能解码海豚语言,可在 Pixel 手机上运行

avatar
Decrypt
04-15
本文为机器翻译
展示原文

为什么要费力理解Z世代的俚语,当与动物交流可能更容易呢?

今天,谷歌推出了DolphinGemma,这是一个开源人工智能模型,旨在通过分析海豚的咔嗒声、哨声和脉冲声来解码海豚通信。这一公告恰逢国家海豚日。

该模型由佐治亚理工学院和野生海豚项目(WDP)合作创建,可以学习海豚发声的结构,并能生成类似海豚的声音序列。

这一突破可能有助于确定海豚通信是否达到语言的水平。

DolphinGemma接受了世界上历时最长的水下海豚研究项目的训练,利用了WDP自1985年以来精心标记的音频和视频数据。

该项目采用"在他们的世界,按照他们的方式"的非侵入性方法,研究了巴哈马群岛的大西洋斑点海豚。

谷歌在公告中表示:"通过识别重复出现的声音模式、簇和可靠的序列,该模型可以帮助研究人员揭示海豚自然通信中隐藏的结构和潜在含义,这是之前需要大量人力的任务。"

这个包含大约4亿个参数的人工智能模型足够小,可以在研究人员在现场使用的Pixel手机上运行。它使用谷歌的SoundStream分词器处理海豚声音,并预测序列中的后续声音,很像人类语言模型预测句子中的下一个词。

DolphinGemma并非独立运行。它与CHAT(鲸类听力增强遥测)系统配合,将合成哨声与海豚喜欢的特定物品(如马尾藻、海草或围巾)关联,可能建立共享词汇以进行交互。

据谷歌称:"最终,这些模式经过研究人员使用合成声音来指代海豚喜欢玩耍的物品进行增强,可能会建立与海豚的共享词汇,用于互动交流。"

现场研究人员目前使用Pixel 6手机实时分析海豚声音。

团队计划在2025年夏季研究季升级到Pixel 9设备,该设备将集成扬声器和麦克风功能,同时同时运行深度学习模型和模板匹配算法。

转向智能手机技术极大地减少了对定制硬件的需求,这对海洋现场工作来说是一个关键优势。DolphinGemma的预测能力可以帮助研究人员更早地预测和识别发声序列中的潜在模仿,使交互更加流畅。

DolphinGemma加入了旨在破解动物通信密码的其他几个人工智能计划。

地球物种项目(ESP)这个非营利组织最近开发了NatureLM,这是一个音频语言模型,能够识别动物物种、大致年龄,以及声音是否表示痛苦或玩耍——虽然不是真正的语言,但仍是建立某种原始通信的方式。

该模型接受人类语言、环境声音和动物发声的混合训练,即使对于之前未接触过的物种也显示出有希望的结果。

CETI项目是这一领域的另一个重要努力。

由包括伦敦帝国理工学院的迈克尔·布朗斯坦在内的研究人员领导,该项目专注于抹香鲸通信,分析它们用于远距离通信的复杂点击模式。

团队已经识别出143种点击组合,这些组合可能构成一种类似的音素字母表,他们现在正在使用深度神经网络和自然语言处理技术进行研究。

虽然这些项目专注于解码动物声音,但纽约大学的研究人员从婴儿发展中汲取灵感进行人工智能学习。

他们的儿童视角对比学习模型(CVCL)通过从6个月到2岁的婴儿头戴摄像头拍摄的镜头,从婴儿的角度观察世界来学习语言。

纽约大学团队发现,他们的人工智能可以从自然数据中高效学习,这与人类婴儿的学习方式非常相似,与需要数万亿个词进行训练的传统人工智能模型形成鲜明对比。

谷歌计划在今年夏天分享更新版本的DolphinGemma,可能扩展其在大西洋斑点海豚以外的实用性。不过,该模型可能需要针对不同物种的发声进行微调。

WDP已广泛关注将海豚声音与特定行为相关联,包括母亲和幼崽用于重聚的特征哨声、冲突时的脉冲"尖叫"以及求偶或追逐鲨鱼时使用的点击"嗡嗡声"。

谷歌指出:"我们不再只是在听。我们开始理解声音中的模式,为人类和海豚通信之间的差距可能变得更小的未来铺平道路。"

编辑:Sebastian SinclairJosh Quittner

来源
免责声明:以上内容仅为作者观点,不代表Followin的任何立场,不构成与Followin相关的任何投资建议。
喜欢
收藏
评论