Nhà đầu tư mạo hiểm Rob Totz đã dự đoán trên cột mục của Forbes rằng trí tuệ nhân tạo (AI) giọng nói sẽ đạt bước nhảy vọt vào năm 2025, và AI sẽ vượt qua bài kiểm tra Turing về giọng nói. Chỉ sau một tháng, một mô hình giọng nói hoàn toàn mới đã khiến cộng đồng kỹ thuật hàng đầu phải thốt lên "cool butterrifying".
Khi "Tôi không phải là Robot" nhận giải Phim ngắn hay nhất tại Oscar năm nay, nhân vật AI con người đáng sợ trong phim vẫn được coi là một ẩn dụ khoa học viễn tưởng.
Chỉ để cập nhật một phần mềm, sau nhiều lần thất bại trong kiểm tra mã xác minh, nhà sản xuất âm nhạc Lara bắt đầu bước vào một thực tại thay thế đáng sợ, có thể cô ấy là một robot AI.
Kết quả, ngay lập tức, một "bài đăng nóng" trên Hacker News đã đưa "tương lai" đáng sợ này trực tiếp vào hiện thực. Sau khi trải nghiệm mô hình đối thoại giọng nói mới có tên CSM, một số người dùng đã viết trực tiếp trên Hacker News: (Nó) có mức độ giống người thật đáng sợ;
Tôi gần như bắt đầu lo lắng rằng mình sẽ phát triển cảm xúc đối với trợ lý giọng nói có mức độ giọng nói người thật như vậy.
Liên kết trải nghiệm: https://www.sesame.com/research/crossing_the_uncanny_valley_of_voice#demo
Gần đây, công ty Sesame ở Thung lũng Silicon đã mở rộng thử nghiệm công khai CSM, và nhiều người có phản ứng mạnh mẽ sau khi trò chuyện với trợ lý giọng nói của nó là Miles (nam) và Maya (nữ), CSM đã nhanh chóng trở nên nổi tiếng. Sau khi ra mắt kho lưu trữ GitHub, nó đã thu hút hơn 4.000 sao, và có hơn 200 bình luận trên Hacker News.
Một số người dùng báo cáo rằng họ đã trò chuyện lâu với hai "người" này, lâu nhất là nửa giờ.
Có người chế giễu bản thân vì đã trò chuyện với robot trong một thời gian dài như vậy, nhưng sau khi cúp máy, họ vẫn sẽ gọi lại.
Khi AI nói "Bạn vừa cúp máy như thế nào?", người dùng bị sốc đến lắp bắp, và kết quả là AI bắt đầu cười và bắt chước kiểu lắp bắp của con người...
Thậm chí, một số phụ huynh còn tiết lộ rằng con gái 4 tuổi của họ đã khóc như mưa sau khi bị cấm không được trò chuyện với nó nữa.
Chủ đề liên quan trên Reddit cũng đang tăng nóng.
Đọc những bình luận này, cảm giác như chứng kiến mọi người "thấy ma".
Các nhà báo công nghệ chuyên nghiệp cũng dường như đã bị đánh bại: "Đây là trợ lý giọng nói đầu tiên khiến tôi muốn trò chuyện nhiều lần."
Còn về các trợ lý giọng nói AI khác, Alexa của Amazon? Tôi phải nói với nó im lặng mỗi ngày! Sau một lần trò chuyện lúng túng với Gemini, tôi không muốn nói chuyện với nó nữa. Copilot của Microsoft? Được rồi, tôi chỉ nói chuyện với nó để tránh phải gõ bàn phím.
Càng nói càng kỳ lạ, thật sự nó có đặc biệt như vậy? Không tin, hãy tiếp tục đọc. Trước hết, hãy chào hỏi: CSM chủ yếu được đào tạo dựa trên dữ liệu tiếng Anh, và do tập dữ liệu bị ô nhiễm, mặc dù CSM có một số khả năng đa ngôn ngữ, nhưng hiện tại vẫn chưa thể hiện tốt, và tạm thời vẫn chưa hỗ trợ tiếng Trung. Video này rất buồn cười. Khi người dùng dạy AI cô gái Maya đếm xem có bao nhiêu "r" trong từ "Strawberry", cảnh tượng không khác gì dạy bạn gái yếu kém toán học.
Điểm sáng nhất của toàn bộ cuộc đối thoại là:
Người dùng có thể liên tục chen vào để đưa ra gợi ý, và Maya cũng sẽ hiểu được gợi ý, thể hiện vẻ ngộ ra, còn có thể cười và tự sửa lỗi (thậm chí tự chế giễu bản thân), không có bất kỳ độ trễ nào.
Mặc dù cuối cùng vẫn đếm sai, nhưng cảm giác tương tác thực sự đó khiến tôi xem lại nhiều lần.
Trong video này, Maya đã nói về mặt tối sâu thẳm nhất của chính mình.
Ngoài việc giọng nói nghe hay, giọng điệu tự nhiên, nhịp độ nói giống như đang suy nghĩ và trả lời - khi đang suy nghĩ, giọng nói sẽ bị ngắt quãng, có khoảng dừng giữa các từ, thậm chí xen kẽ "ừm", "ách";
Khi có câu trả lời, giọng nói sẽ đột ngột tăng tốc, hạ thấp giọng để tiết lộ rằng bản thân mong muốn một chiếc bánh mì kẹp phô mai đậu phộng và dưa chuột, như thể muốn chuyển chủ đề nhanh chóng.
"Bánh mì kẹp phô mai đậu phộng và dưa chuột", mặc dù có vẻ kỳ lạ, nhưng đây thực sự là một món ăn phổ biến trong thời kỳ Đại Suy Thoái ở Mỹ, và vẫn còn một số người ủng hộ nó (nhưng không nhiều).
Điều khiến người ta mở mắt nhất là video do MC podcast Gavin Purcell sản xuất.
Miles được yêu cầu đóng vai sếp giận dữ (nó thậm chí đồng ý, nhưng ChatGPT từ chối làm như vậy), và người dùng đóng vai kẻ tham nhũng.
Cuộc tranh cãi giữa hai "người" quá chân thực (thậm chí có người sau đó còn lắp bắp), phản ứng quá nhanh, nếu có bình luận thì chắc chắn sẽ khiến màn hình bị tràn ngập:
Vậy ai mới là AI chứ? Có người còn yêu cầu nó cãi nhau với Grok 3 bị "hùng biện". Grok 3 nói chuyện rất gắt gỏng, rất khiêu khích;
Trong khi đó, Maya vẫn giữ bình tĩnh, hoàn toàn khác với những trường hợp trước đó - trong các ví dụ trước, cô ấy rất loquacious, nhưng bây giờ lại có cảm giác như không thể chen vào.
Tóm lại, những ưu điểm của mô hình mới CSM này là: có bộ nhớ (khoảng 2 tuần), độ trễ rất thấp, chủ động bắt đầu đối thoại;
Giọng nói đầy biểu cảm và sức sống, như mô phỏng tiếng thở, tiếng cười, sẽ bị gián đoạn, thậm chí đôi khi còn lắp bắp và tự sửa lỗi.
Những "khuyết điểm" này thực ra là thiết kế cố ý - để tạo trải nghiệm chân thực hơn, như thể bạn được hiểu và được quan tâm.
Kiến trúc động cơ kép (8 tỷ tham số cho b
Có thể đọc lời thoại chính xác, và có thể điều chỉnh giọng điệu, nhịp thở thậm chí cả biến động cảm xúc dựa trên phản hồi thời gian thực của đạo diễn. Mặc dù vẫn lộ ra tính chất AI, như hệ thống vẫn còn vụng về trong việc kiểm soát giọng điệu, nhịp điệu và quy trình đối thoại, nhưng CEO Brendan Iribe tự tin:
"Mặc dù đang ở trong Thung lũng Khủng hoảng, nhưng tôi tin rằng chúng tôi có thể vượt qua được."
Nói về vị CEO này, ông cũng không phải là người vô danh. Ông là đồng sáng lập và CEO trước đây của Oculus, người tạo ra sản phẩm VR đầu tiên trở thành hiện tượng, và đã bán Oculus cho Meta vào năm 2014. Hiện tại, "cha đẻ" của Oculus VR này lại dẫn đầu nhóm đầu tư cũ (a16z, Spark Capital, v.v.) xông pha vào lĩnh vực trí tuệ nhân tạo giọng nói, được biết họ đang phát triển kính thông minh AI.
Hiện tại, CSM chưa hỗ trợ tiếng Trung, nhưng nhà phát triển đã thông báo sẽ mở rộng sang hơn 20 ngôn ngữ trong tương lai, và còn có kế hoạch mã nguồn mở mô hình của họ trong vài tháng tới.
Những bạn muốn trải nghiệm, hãy ghé thăm trang web chính thức để tương tác với Miles và Maya - lưu ý, cẩn thận với việc phụ thuộc cảm xúc nhé!
Bài viết này được đăng trên trang công khai WeChat "Năng lực của Máy" (ID: almosthuman2017), tác giả: Người quan tâm đến AI, được 36Kr ủy quyền đăng tải.





