Google ra mắt AI để giải mã Dolphin Talk, chạy trên điện thoại Pixel

avatar
Decrypt
04-15
Bài viết này được dịch máy
Xem bản gốc

Tại sao lại cố gắng hiểu ngôn ngữ của thế hệ Z khi có thể dễ dàng giao tiếp với động vật hơn?

Hôm nay, Google đã giới thiệu DolphinGemma, một mô hình AI nguồn mở được thiết kế để giải mã giao tiếp của cá heo bằng cách phân tích các tiếng click, tiếng huýt sáo và xung nổ của chúng. Thông báo này trùng với Ngày Quốc tế Cá Heo.

Mô hình, được tạo ra thông qua hợp tác với Georgia Tech và Dự án Cá Heo Hoang Dã (WDP), học cấu trúc của các âm thanh cá heo và có thể tạo ra các chuỗi âm thanh giống cá heo.

Bước đột phá này có thể giúp xác định liệu giao tiếp của cá heo có đạt đến mức độ ngôn ngữ hay không.

Được đào tạo trên dự án nghiên cứu cá heo dưới nước lâu đời nhất thế giới, DolphinGemma tận dụng hàng thập kỷ dữ liệu âm thanh và video được gắn nhãn cẩn thận do WDP thu thập từ năm 1985.

Dự án đã nghiên cứu Cá Heo Chấm Đại Tây Dương ở Bahamas qua nhiều thế hệ bằng phương pháp không xâm lấn mà họ gọi là "Trong Thế Giới Của Chúng, Theo Điều Kiện Của Chúng".

"Bằng cách xác định các mẫu âm thanh lặp lại, cụm và chuỗi ổn định, mô hình có thể giúp các nhà nghiên cứu khám phá các cấu trúc ẩn và ý nghĩa tiềm ẩn trong giao tiếp tự nhiên của cá heo - một nhiệm vụ trước đây đòi hỏi nỗ lực con người rất lớn," Google cho biết trong thông báo.

Mô hình AI này, chứa khoảng 400 triệu tham số, đủ nhỏ để chạy trên điện thoại Pixel mà các nhà nghiên cứu sử dụng ngoài hiện trường. Nó xử lý âm thanh cá heo bằng trình token hóa SoundStream của Google và dự đoán các âm thanh tiếp theo trong một chuỗi, giống như cách các mô hình ngôn ngữ con người dự đoán từ tiếp theo trong một câu.

DolphinGemma không hoạt động độc lập. Nó hoạt động song song với hệ thống CHAT (Telemetry Tăng Cường Thính Giác Cá Voi), liên kết các tiếng huýt sáo tổng hợp với các đối tượng cụ thể mà cá heo thích, như rong biển, cỏ biển hoặc khăn quàng, có khả năng thiết lập từ vựng chung để tương tác.

"Cuối cùng, những mẫu này, được bổ sung bằng các âm thanh tổng hợp do các nhà nghiên cứu tạo ra để chỉ các đối tượng mà cá heo thích chơi, có thể thiết lập từ vựng chung với cá heo để giao tiếp tương tác," theo Google.

Các nhà nghiên cứu hiện trường hiện đang sử dụng điện thoại Pixel 6 để phân tích âm thanh cá heo theo thời gian thực.

Nhóm dự định nâng cấp lên thiết bị Pixel 9 cho mùa nghiên cứu hè 2025, sẽ tích hợp các chức năng loa và micro trong khi chạy cả hai mô hình học sâu và các thuật toán so sánh mẫu đồng thời.

Sự chuyển đổi sang công nghệ điện thoại thông minh đáng kể giảm thiểu nhu cầu về phần cứng tùy chỉnh, một lợi thế quan trọng cho công việc nghiên cứu hàng hải. Khả năng dự đoán của DolphinGemma có thể giúp các nhà nghiên cứu dự đoán và nhận dạng các bản sao tiềm ẩn sớm hơn trong các chuỗi phát âm, làm cho các tương tác trở nên mượt mà hơn.

DolphinGemma tham gia một số sáng kiến AI khác nhằm giải mã giao tiếp của động vật.

Dự án Loài Trên Trái Đất (ESP), một tổ chức phi lợi nhuận, gần đây đã phát triển NatureLM, một mô hình ngôn ngữ âm thanh có khả năng xác định loài động vật, tuổi xấp xỉ và liệu các âm thanh có cho thấy sự căng thẳng hay chơi đùa - không phải là ngôn ngữ thực sự, nhưng vẫn là cách thiết lập một số giao tiếp nguyên thủy.

Mô hình, được đào tạo trên sự pha trộn của ngôn ngữ con người, âm thanh môi trường và tiếng kêu của động vật, đã cho thấy kết quả khả quan thậm chí với các loài chưa từng gặp.

Dự án CETI đại diện cho một nỗ lực quan trọng khác trong lĩnh vực này.

Do các nhà nghiên cứu như Michael Bronstein từ Đại học Imperial College London dẫn đầu, nó tập trung cụ thể vào giao tiếp của cá nhà táng, phân tích các mẫu click phức tạp được sử dụng trên những khoảng cách xa.

Nhóm đã xác định 143 tổ hợp click có thể tạo thành một loại bảng chữ cái ngữ âm, mà họ hiện đang nghiên cứu bằng các mạng nơ-ron sâu và kỹ thuật xử lý ngôn ngữ tự nhiên.

Trong khi các dự án này tập trung vào việc giải mã âm thanh động vật, các nhà nghiên cứu tại Đại học New York đã lấy cảm hứng từ sự phát triển của trẻ sơ sinh để học AI.

Mô hình Góc Nhìn Trẻ Thơ cho Học Tập Tương Phản (CVCL) của họ đã học ngôn ngữ bằng cách nhìn thế giới từ góc nhìn của trẻ sơ sinh, sử dụng đoạn phim từ máy ảnh gắn trên đầu của một đứa trẻ từ 6 tháng đến 2 tuổi.

Nhóm NYU nhận thấy rằng AI của họ có thể học hiệu quả từ dữ liệu tự nhiên tương tự như cách trẻ sơ sinh học, tương phản rõ rệt với các mô hình AI truyền thống yêu cầu hàng nghìn tỷ từ để đào tạo.

Google dự định chia sẻ phiên bản cập nhật của DolphinGemma vào mùa hè này, có khả năng mở rộng tiện ích của nó ra ngoài cá heo chấm Đại Tây Dương. Tuy nhiên, mô hình có thể yêu cầu tinh chỉnh cho các tiếng kêu của các loài khác nhau.

WDP đã tập trung rộng rãi vào việc tương quan âm thanh cá heo với các hành vi cụ thể, bao gồm tiếng huýt sáo đặc trưng được sử dụng bởi mẹ và con để đoàn tụ, các tiếng "kêu" xung nổ trong các xung đột, và các tiếng "buzz" click được sử dụng trong quá trình tán tỉnh hoặc khi đuổi theo cá mập.

"Chúng tôi không chỉ đang lắng nghe nữa," Google lưu ý. "Chúng tôi đang bắt đầu hiểu các mẫu trong các âm thanh, mở đường cho một tương lai nơi khoảng cách giữa giao tiếp của con người và cá heo có thể trở nên nhỏ hơn một chút."

Được biên tập bởi Sebastian Sinclair và Josh Quittner

Nguồn
Tuyên bố từ chối trách nhiệm: Nội dung trên chỉ là ý kiến của tác giả, không đại diện cho bất kỳ lập trường nào của Followin, không nhằm mục đích và sẽ không được hiểu hay hiểu là lời khuyên đầu tư từ Followin.
Thích
Thêm vào Yêu thích
Bình luận