구글, 픽셀폰에서 돌고래 음성 인식 AI 출시

avatar
Decrypt
04-15
이 기사는 기계로 번역되었습니다
원문 표시

Z세대의 은어를 이해하려고 노력하는 대신 동물과 소통하는 것이 더 쉽지 않을까요?

오늘, 구글은 돌고래의 클릭음, 휘파람, 버스트 펄스를 분석하여 돌고래 소통을 해독하도록 설계된 오픈소스 AI 모델 DolphinGemma를 공개했습니다. 이 발표는 국제 돌고래의 날과 일치했습니다.

조지아 공과대학과 야생 돌고래 프로젝트(WDP)와 협력하여 만든 이 모델은 돌고래의 발성 구조를 학습하고 돌고래와 유사한 소리 시퀀스를 생성할 수 있습니다.

이 혁신은 돌고래의 소통이 언어 수준에 도달하는지 여부를 결정하는 데 도움을 줄 수 있습니다.

세계에서 가장 오래 지속된 수중 돌고래 연구 프로젝트로 훈련된 DolphinGemma는 1985년부터 WDP가 수집한 세심하게 레이블링된 수십 년간의 오디오 및 비디오 데이터를 활용합니다.

이 프로젝트는 바하마에 있는 대서양 점박이 돌고래를 "그들의 세계에서, 그들의 조건으로"라는 비침습적 접근 방식을 사용하여 세대를 걸쳐 연구해왔습니다.

구글은 발표문에서 "반복되는 소리 패턴, 클러스터 및 신뢰할 수 있는 시퀀스를 식별함으로써, 이 모델은 연구자들이 돌고래의 자연스러운 소통 내에 숨겨진 구조와 잠재적 의미를 발견하는 데 도움을 줄 수 있습니다. 이는 이전에는 엄청난 인간의 노력을 필요로 했던 작업입니다."라고 말했습니다.

약 4억 개의 매개변수를 포함하는 이 AI 모델은 현장에서 연구자들이 사용하는 픽셀 폰에서 실행할 수 있을 만큼 작습니다. 구글의 SoundStream 토크나이저를 사용하여 돌고래 소리를 처리하고, 인간 언어 모델이 문장에서 다음 단어를 예측하는 것과 유사하게 시퀀스의 후속 소리를 예측합니다.

DolphinGemma는 독립적으로 작동하지 않습니다. CHAT(고래 청각 증폭 원격 측정) 시스템과 함께 작동하며, 이 시스템은 돌고래가 좋아하는 특정 물체(예: 말파리모자, 해초, 스카프)와 합성 휘파람을 연관시켜 잠재적으로 상호작용을 위한 공유 어휘를 설정합니다.

구글에 따르면, "결국 이러한 패턴들은 연구자들이 돌고래가 놀아좋아하는 물체를 지칭하기 위해 만든 합성 소리와 결합하여 돌고래와의 상호작용적 소통을 위한 공유 어휘를 설정할 수 있습니다."

현장 연구자들은 현재 돌고래 소리를 실시간으로 분석하기 위해 픽셀 6 폰을 사용하고 있습니다.

팀은 2025년 여름 연구 시즌을 위해 픽셀 9 기기로 업그레이드할 계획이며, 이는 스피커와 마이크 기능을 통합하고 동시에 딥러닝 모델과 템플릿 매칭 알고리즘을 실행할 것입니다.

스마트폰 기술로의 전환은 맞춤형 하드웨어의 필요성을 크게 줄이며, 이는 해양 현장 연구에 중요한 장점입니다. DolphinGemma의 예측 능력은 연구자들이 발성 시퀀스의 초기에 잠재적 모방을 예측하고 식별하는 데 도움을 주어 상호작용을 더 유연하게 만들 수 있습니다.

DolphinGemma는 동물 소통의 암호를 해독하려는 다른 여러 AI 이니셔티브에 합류했습니다.

비영리 단체인 지구 종 프로젝트(ESP)는 최근 동물 종을 식별하고, 대략적인 나이, 그리고 소리가 고통이나 놀이를 나타내는지 여부를 확인할 수 있는 오디오 언어 모델 NatureLM을 개발했습니다. 이는 실제 언어는 아니지만, 원시적인 소통을 설정하는 방법입니다.

인간 언어, 환경 소리, 동물 발성을 혼합하여 훈련된 이 모델은 이전에 접하지 않은 종에서도 유망한 결과를 보였습니다.

프로젝트 CETI는 이 분야의 또 다른 중요한 노력을 대표합니다.

런던 임페리얼 칼리지의 마이클 브론스타인을 포함한 연구자들이 이끄는 이 프로젝트는 장거리에서 사용되는 복잡한 클릭 패턴을 분석하는 향유고래 소통에 특별히 초점을 맞추고 있습니다.

팀은 잠재적으로 음성 알파벳을 형성할 수 있는 143개의 클릭 조합을 식별했으며, 현재 딥 신경망과 자연어 처리 기술을 사용하여 이를 연구하고 있습니다.

이러한 프로젝트들이 동물 소리를 해독하는 데 초점을 맞추는 동안, 뉴욕 대학의 연구자들은 AI 학습을 위해 아기 발달에서 영감을 얻었습니다.

그들의 대조 학습을 위한 아이의 관점(CVCL) 모델은 6개월부터 2년까지 유아가 착용한 헤드 마운트 카메라의 영상을 사용하여 아기의 관점에서 세상을 보며 언어를 학습했습니다.

NYU 팀은 그들의 AI가 인간 유아가 하는 방식과 유사하게 자연스러운 데이터에서 효율적으로 학습할 수 있음을 발견했으며, 이는 훈련을 위해 수조 개의 단어를 필요로 하는 전통적인 AI 모델과 대조적입니다.

구글은 이번 여름에 DolphinGemma의 업데이트된 버전을 공유할 계획이며, 잠재적으로 대서양 점박이 돌고래를 넘어 그 유용성을 확장할 수 있습니다. 그러나 이 모델은 다른 종의 발성에 맞게 미세 조정이 필요할 수 있습니다.

WDP는 돌고래 소리를 특정 행동과 상관시키는 데 광범위하게 집중해왔습니다. 여기에는 어미와 새끼가 재회하기 위해 사용하는 서명 휘파람, 갈등 중 버스트 펄스 "스콱", 짝짓기나 상어를 추격할 때 사용하는 클릭 "버즈" 등이 포함됩니다.

구글은 "우리는 더 이상 그저 듣기만 하는 것이 아닙니다. 소리 속의 패턴을 이해하기 시작하고 있으며, 이는 인간과 돌고래 소통 사이의 간극이 조금씩 좁아질 수 있는 미래를 열어가고 있습니다."라고 언급했습니다.

편집: 세바스찬 싱클레어조시 퀴트너

출처
면책조항: 상기 내용은 작자의 개인적인 의견입니다. 따라서 이는 Followin의 입장과 무관하며 Followin과 관련된 어떠한 투자 제안도 구성하지 않습니다.
라이크
즐겨찾기에 추가
코멘트