Cuộc đua dịch âm thanh động vật sang ngôn ngữ con người

avatar
WIRED
12-22
Bài viết này được dịch máy
Xem bản gốc
Vào năm 2025, chúng ta sẽ thấy Trí tuệ nhân tạo (AI) và học máy được tận dụng để đạt được tiến bộ thực sự trong việc hiểu giao tiếp của động vật, trả lời một câu hỏi đã làm bối rối con người bao lâu nay: "Động vật đang nói với nhau điều gì?" Giải thưởng Coller-Dolittle gần đây, với các giải thưởng tiền mặt lên đến nửa triệu đô la cho các nhà khoa học "giải mã" điều này, là một dấu hiệu của sự tự tin lạc quan rằng các bước phát triển công nghệ gần đây trong học máy và các mô hình ngôn ngữ lớn (LLM) đang đặt mục tiêu này trong tầm với của chúng ta. Nhiều nhóm nghiên cứu đã làm việc trong nhiều năm về các thuật toán để hiểu được âm thanh của động vật. Ví dụ, Dự án Ceti đã giải mã các chuỗi Bit của cá voi nhồi và bài hát của cá voi lưng gù. Các công cụ học máy hiện đại này yêu cầu lượng dữ liệu cực lớn, và cho đến nay, những lượng dữ liệu chất lượng cao và được ghi chú tốt như vậy vẫn còn thiếu. Hãy xem xét các LLM như ChatGPT có dữ liệu huấn luyện bao gồm toàn bộ văn bản có sẵn trên internet. Thông tin về giao tiếp của động vật chưa từng được tiếp cận trước đây. Không chỉ vì các tập dữ liệu của con người lớn hơn nhiều so với loại dữ liệu mà chúng ta có quyền truy cập đối với động vật hoang dã: Hơn 500 GB từ đã được sử dụng để huấn luyện GPT-3, so với chỉ hơn 8.000 "coda" (hoặc âm thanh) cho phân tích giao tiếp của cá voi nhồi gần đây của Dự án Ceti. Ngoài ra, khi làm việc với ngôn ngữ con người, chúng ta đã biết những gì đang được nói. Chúng ta thậm chí biết những gì cấu thành một "từ", đây là một lợi thế rất lớn so với việc giải mã giao tiếp của động vật, nơi mà các nhà khoa học hiếm khi biết liệu một tiếng kêu của sói có nghĩa khác với một tiếng kêu khác của sói, hay thậm chí liệu các con sói có coi một tiếng kêu như một "từ" tương tự trong ngôn ngữ của con người hay không. Tuy nhiên, năm 2025 sẽ mang lại những tiến bộ mới, cả về lượng dữ liệu giao tiếp của động vật có sẵn cho các nhà khoa học, và về các loại và sức mạnh của các thuật toán AI có thể được áp dụng cho những dữ liệu đó. Việc ghi âm tự động các âm thanh của động vật đã được đưa vào tầm với của mọi nhóm nghiên cứu khoa học, với các thiết bị ghi âm giá rẻ như AudioMoth đang trở nên phổ biến. Các tập dữ liệu khổng lồ hiện đang được đưa ra, khi các máy ghi âm có thể được để ngoài hiện trường, lắng nghe tiếng kêu của các loài voọc trong rừng rậm hoặc chim trong rừng, 24/7, trong thời gian dài. Đã có những thời điểm khi những tập dữ liệu khổng lồ như vậy là không thể quản lý thủ công. Bây giờ, các thuật toán phát hiện tự động dựa trên mạng nơ-ron tích chập có thể chạy qua hàng nghìn giờ ghi âm, lựa chọn ra các âm thanh của động vật và nhóm chúng thành các loại khác nhau, theo các đặc điểm âm học tự nhiên của chúng. Một khi những tập dữ liệu lớn về động vật đó có sẵn, các thuật toán phân tích mới trở nên khả thi, chẳng hạn như sử dụng mạng nơ-ron sâu để tìm ra cấu trúc ẩn trong các chuỗi âm thanh của động vật, có thể tương tự như cấu trúc có ý nghĩa trong ngôn ngữ của con người. Tuy nhiên, câu hỏi cơ bản vẫn chưa rõ ràng là, chúng ta hy vọng làm gì chính xác với những âm thanh của động vật này? Một số tổ chức, như Interspecies.io, đặt mục tiêu rất rõ ràng là "chuyển tín hiệu từ một loài sang tín hiệu có ý nghĩa cho loài khác". Nói cách khác, để dịch giao tiếp của động vật sang ngôn ngữ của con người. Tuy nhiên, hầu hết các nhà khoa học đều đồng ý rằng động vật không người không có ngôn ngữ riêng của chúng - ít nhất là không theo cách mà chúng ta con người có ngôn ngữ. Giải thưởng Coller Dolittle hơi tinh vi hơn, tìm kiếm một cách "giao tiếp với hoặc giải mã giao tiếp của một sinh vật". Giải mã là một mục tiêu ít tham vọng hơn so với dịch, khi xem xét khả năng động vật thực sự không có một ngôn ngữ có thể được dịch. Hiện nay, chúng ta không biết động vật truyền đạt bao nhiêu thông tin, hoặc ít thông tin như thế nào, giữa chúng. Vào năm 2025, nhân loại sẽ có tiềm năng để vượt qua sự hiểu biết của chúng ta không chỉ về những gì động vật nói mà còn về những gì chính xác chúng đang nói với nhau.

Nguồn
Tuyên bố từ chối trách nhiệm: Nội dung trên chỉ là ý kiến của tác giả, không đại diện cho bất kỳ lập trường nào của Followin, không nhằm mục đích và sẽ không được hiểu hay hiểu là lời khuyên đầu tư từ Followin.
Thích
Thêm vào Yêu thích
Bình luận