将动物声音翻译成人类语言的竞赛

avatar
WIRED
12-22
本文为机器翻译
展示原文

在2025年,我们将看到人工智能和机器学习被利用来取得在理解动物交流方面的真正进展,回答一个困扰人类已久的问题:"动物们在彼此说什么?"最近的科勒-多利特尔奖提供高达50万美元的现金奖励给"破译密码"的科学家,这表明人们对机器学习和大型语言模型(LLMs)的最新技术进展能够实现这一目标充满信心。

多个研究小组多年来一直在研究算法来理解动物声音。例如,Ceti项目一直在解码抹香鲸的点击声和座头鲸的歌声。这些现代机器学习工具需要大量数据,但到目前为止,这种高质量和良好注释的数据一直缺乏。

考虑一下像ChatGPT这样的LLM,它们可以访问整个互联网上的文本数据。过去动物交流的信息是无法获取的。不仅人类数据库比我们获取动物野外数据大几个数量级,训练GPT-3使用了超过500GB的文字,而Ceti项目最近分析抹香鲸交流只使用了8,000多个"尾音"(或发声)。

此外,在处理人类语言时,我们已经知道正在说什么。我们甚至知道什么构成一个"单词",这在解释动物交流时是一个巨大的优势,因为科学家很少知道一种特定的狼嚎是否与另一种狼嚎有不同的含义,或者狼是否将嚎叫视为类似人类语言中的"单词"。

尽管如此,2025年将带来新的进展,包括动物交流数据的数量以及可应用于这些数据的AI算法的类型和功能。自动录制动物声音的技术已经在科研团队中广泛使用,像AudioMoth这样的低成本录音设备正在迅速流行。

大量数据正在上线,因为记录器可以长时间留在野外,24/7记录丛林中长臂猿的叫声或森林中鸟类的鸣叫。过去这种大规模数据集是无法手动管理的。现在,基于卷积神经网络的新型自动检测算法可以快速浏览数千小时的录音,提取动物声音并根据自然声学特征将其聚类。

一旦获得这些大型动物数据集,就可以使用新的分析算法,例如使用深度神经网络来发现动物叫声序列中的隐藏结构,这可能类似于人类语言中的有意义结构。

然而,仍然存在一个根本性的问题,即我们究竟希望用这些动物声音做什么?一些组织,如Interspecies.io,明确将其目标设定为"将一个物种的信号转换为另一个物种的连贯信号",换句话说,就是将动物交流翻译成人类语言。但大多数科学家都同意,非人类动物没有自己的实际语言,至少不像我们人类的语言。

科勒-多利特尔奖的目标更为复杂,寻求"与生物体的交流或破译其交流"。考虑到动物可能确实没有可以翻译的语言,破译是一个稍微不那么雄心勃勃的目标。目前我们不知道动物之间传递的信息有多少或有多少。到2025年,人类将有可能大幅提高我们对动物不仅说了多少,而且到底在说什么的理解。

来源
免责声明:以上内容仅为作者观点,不代表Followin的任何立场,不构成与Followin相关的任何投资建议。
喜欢
收藏
评论