2025년에는 AI와 기계 학습을 활용하여 동물 의사소통을 이해하는 데 실질적인 진전을 이룰 것입니다. 이는 우리가 존재해온 만큼이나 오랫동안 인류를 괴롭혀온 질문, "동물들은 서로에게 무엇을 말하고 있는가?"에 대한 해답을 찾는 것입니다. 최근 "암호를 해독"한 과학자들에게 최대 50만 달러의 상금을 제공하는 Coller-Dolittle Prize는 기계 학습과 대규모 언어 모델(LLM)의 최근 기술 발전으로 이 목표가 우리의 손에 닿게 되었다는 낙관적인 확신을 보여줍니다.
많은 연구 그룹들이 수년 동안 동물 소리를 이해하기 위한 알고리즘을 개발해왔습니다. 예를 들어, Project Ceti는 향고래의 클릭 소리와 혹등고래의 노래를 해독하고 있습니다. 이러한 현대 기계 학습 도구는 매우 많은 양의 데이터를 필요로 하지만, 지금까지 이러한 고품질의 주석이 달린 데이터가 부족했습니다.
ChatGPT와 같은 LLM은 인터넷에 존재하는 모든 텍스트를 학습 데이터로 사용할 수 있습니다. 하지만 동물 의사소통에 대한 정보는 과거에 접근할 수 없었습니다. 인간 데이터 코퍼스가 동물 데이터보다 훨씬 더 크다는 것뿐만 아니라, GPT-3 학습에는 500GB 이상의 단어가 사용된 반면 Project Ceti의 최근 향고래 의사소통 분석에는 단 8,000개의 "코다"(또는 발성)만 사용되었습니다.
또한 인간 언어를 다룰 때는 이미 무엇이 말해지고 있는지 알고 있습니다. 심지어 "단어"가 무엇인지도 알고 있는데, 이는 동물 의사소통을 해석할 때 큰 장점이 됩니다. 예를 들어, 과학자들은 특정 늑대 울음소리가 다른 울음소리와 다른 의미를 가지는지, 또는 늑대들이 울음소리를 "단어"와 유사하게 간주하는지 여부를 거의 알지 못합니다.
그럼에도 불구하고 2025년에는 동물 의사소통 데이터의 양과 이를 분석할 수 있는 AI 알고리즘의 유형 및 성능에서 새로운 발전이 있을 것입니다. AudioMoth와 같은 저렴한 녹음 장치의 인기 증가로 동물 소리 자동 녹음이 모든 연구 그룹의 손에 쉽게 닿게 되었습니다.
정글의 gibbon 울음소리나 숲의 새 소리를 24시간 내내 장기간 녹음할 수 있게 되면서 방대한 데이터세트가 온라인으로 제공되고 있습니다. 이러한 대규모 데이터세트를 수동으로 관리하는 것은 불가능했지만, 합성곱 신경망 기반의 새로운 자동 탐지 알고리즘을 통해 수천 시간의 녹음에서 동물 소리를 추출하고 자연음향 특성에 따라 유형별로 군집화할 수 있게 되었습니다.
이러한 대규모 동물 데이터세트를 활용하면 심층 신경망을 사용하여 동물 발성 시퀀스의 숨겨진 구조를 찾는 등 새로운 분석 알고리즘을 적용할 수 있게 됩니다. 이는 인간 언어의 의미 구조와 유사할 수 있습니다.
그러나 여전히 이러한 동물 소리로 정확히 무엇을 하고자 하는지에 대한 근본적인 질문이 남아 있습니다. Interspecies.io와 같은 일부 기관은 "한 종의 신호를 다른 종의 일관된 신호로 변환하는 것"을 목표로 삼고 있습니다. 즉, 동물 의사소통을 인간 언어로 번역하는 것입니다. 그러나 대부분의 과학자들은 비인간 동물들이 우리 인간처럼 실제 언어를 가지고 있지 않다는 데 동의합니다.
Coller Dolittle Prize는 "생물체의 의사소통을 해독하거나 소통하는 방법"을 찾는 것을 목표로 하고 있습니다. 동물들이 실제로 번역할 수 있는 언어를 가지고 있지 않을 수 있다는 가능성을 고려하면, 해독하는 것이 번역하는 것보다 덜 야심찬 목표입니다. 현재 우리는 동물들이 서로에게 얼마나 많은 정보를 전달하는지, 또는 얼마나 적은 정보를 전달하는지 알지 못합니다. 2025년에 인류는 동물들이 무엇을 서로에게 말하고 있는지에 대한 이해를 크게 향상시킬 잠재력을 가지게 될 것입니다.