Chế độ giọng nói mới nhất Grayscale nhận ra việc hát mà GPT-4o không thể làm được

01-21

Bài viết này được dịch máy

Xem bản gốc

Dưới đây là bản dịch tiếng Việt của văn bản, với các từ viết tắt được dịch như sau: - 'TGE' được dịch thành 'Thời điểm phát hành token (TGE)' - 'TPS' được dịch thành 'Số lượng giao dịch trên mỗi giây' - 'AR' được dịch thành 'Thực tế tăng cường (AR)' - 'ICE' được dịch thành 'Intercontinental Exchange (ICE)' - 'TRON' được dịch thành 'TRON' - 'Prom' được dịch thành 'Prom' - 'ICP' được dịch thành 'ICP' - 'HT' được dịch thành 'HT' - 'OP' được dịch thành 'OP' - 'ENS' được dịch thành 'ENS' - 'AR' được dịch thành 'AR' - 'GLM' được dịch thành 'GLM' - 'ONT' được dịch thành 'ONT' - 'RON' được dịch thành 'RON' - 'ONG' được dịch thành 'ONG' - '集成' được dịch thành 'tích hợp' - '上线' được dịch thành 'ra mắt' - '扩展' được dịch thành 'mở rộng' - '官方' được dịch thành 'chính thức' - '面对' được dịch thành 'đối diện' - '截至' được dịch thành 'tính đến' - '次' được dịch thành 'lần' - '情绪' được dịch thành 'tâm lý' - '角色' được dịch thành 'nhân vật' - 'Seed' được dịch thành 'Seed'

Tác giả｜Châu Tân Vũ

Biên tập｜Tô Kiến Huân

Năm 2025, bản cập nhật đầu tiên của Đậu Bao tập trung vào tính năng cuộc gọi thoại.

Ngày 20 tháng 1 năm 2025, Đậu Bao đã phát hành mô hình ngôn ngữ lớn "từ đầu đến cuối" mới nhất và cập nhật tính năng cuộc gọi thoại thời gian thực trên ứng dụng Đậu Bao dựa trên mô hình này.

Trước đây, tính năng cuộc gọi thoại của Đậu Bao sử dụng phương án ghép nối ASR (nhận dạng giọng nói tự động) + LLM (mô hình ngôn ngữ lớn) + TTS (văn bản sang giọng nói). Nay với mô hình giọng nói từ đầu đến cuối được cập nhật, việc nhận dạng giọng nói, hiểu nghĩa và tổng hợp giọng nói đều được giải quyết trong cùng một mô hình.

Theo kiểm tra của "Trí tuệ Tự phát", điểm nổi bật lớn nhất của Đậu Bao sau khi cập nhật mô hình giọng nói là khả năng tái hiện các hình thức biểu đạt và cảm xúc giống con người trong tương tác bằng giọng nói. Đồng thời, phiên bản mới cũng có sự cải thiện đáng kể về độ trôi chảy và trí tuệ cảm xúc của cuộc đối thoại.

Ví dụ, các chế độ cuộc gọi thoại "Ca sĩ tâm hồn" và "Ngôi sao đa năng" mới ra mắt của Đậu Bao đã vượt trước cả GPT-4o, thực hiện được hát hò và nhập vai.

△ Các chế độ cuộc gọi thoại mới của Đậu Bao.

Đậu Bao biết hát và nhập vai

Một thay đổi lớn của Đậu Bao là mở rộng khả năng nhập vai từ các nhân vật trong phim, sách đến các ngôi sao. Tính năng này được thể hiện trong chế độ "Ngôi sao đa năng" của cuộc gọi thoại Đậu Bao.

Ví dụ, khi tác giả yêu cầu "Hãy bắt chước giọng nói của Vũ Thư Hân và nói một lời chúc Tết", Đậu Bao đáp lại bằng câu "Ôi, tôi không muốn bắt chước cô ấy đâu! Tôi là tôi, là pháo hoa khác biệt" - hoàn toàn thể hiện được phong cách của "tiểu tác giả".

Video demo: https://pan.baidu.com/s/1i9DvF3o2wjq_jyGMuF_lgQ?pwd=yrn8

Hơn nữa, khả năng ghi nhớ ngữ cảnh của Đậu Bao cũng rất tốt. Khi tôi thử yêu cầu nó bắt chước các nhân vật như Tống Đan Đan, Lâm Đại Ngọc, Tần Hằng trong cùng một đoạn đối thoại, và sau đó lại yêu cầu bắt chước Vũ Thư Hân, nó liền phản ứng ngay: "Sao lại bắt tôi bắt chước cô ấy nữa vậy?"

Video demo: https://pan.baidu.com/s/1gmHHEkqcrwAfiY01uy8-Uw?pwd=3b7a

Hiện nay, hầu hết các mô hình giọng nói trên thị trường vẫn cần người dùng nhập Prompt chuyên nghiệp hoặc dựa trên âm thanh do người dùng cung cấp để sáng tác nhạc, chưa thể tự nhiên hát trong quá trình trao đổi.

Chế độ "Ca sĩ tâm hồn" mới ra mắt của Đậu Bao lại có thể khiến Đậu Bao tự hát trong cuộc trò chuyện.

Ví dụ, khi yêu cầu Đậu Bao hát một bài nhạc sôi động, nó liền bắt đầu hát bài "Love Story" của Taylor Swift, mặc dù nhầm tên bài hát thành "Lose Control" và cũng có chút sai về cao độ.

Video demo: https://pan.baidu.com/s/1vN4GpKdVtGEn4bYiV3uOkQ?pwd=kj8j

Ngoài ra, Đậu Bao cũng có khả năng sáng tác nhạc. Ví dụ khi nói "Hãy hát cho tôi một bài hát có câu chuyện về tiền thưởng cuối năm", nó liền biểu diễn một bài hát. Mặc dù lời hơi "tầm thường", nhưng tốc độ phản hồi rất nhanh.

Video demo: https://pan.baidu.com/s/1VZAL7F6h0cH6x8pDDB1muw?pwd=3seb

Từ khả năng nhập vai và hát hò, có thể cảm nhận được khả năng nhân cách hóa, mức độ tự nhiên trong tương tác và trình độ biểu đạt cảm xúc của Đậu Bao đã lên tầm cao mới.

Ví dụ, khi yêu cầu Đậu Bao kể một câu chuyện ma, nó có thể thay đổi giọng điệu theo diễn biến câu chuyện, tạo được không khí rất đậm.

Video demo: https://pan.baidu.com/s/13g20MBVW1ydmtuL-dd3qSw?pwd=g3kb

Lần này Đậu Bao cũng ra mắt hai chế độ nhân cách mới: "Đậu Bao bị ức hiếp" và "Bậc thầy khen ngợi".

Chế độ "Đậu Bao bị ức hiếp" được giới thiệu là có thể khiến Đậu Bao thể hiện trạng thái ủy mị. Nhưng theo cảm nhận của chúng tôi, "Đậu Bao bị ức hiếp" chính xác hơn là "Đậu Bao trà xanh".

Video demo: https://pan.baidu.com/s/1cixSfFb89KVC1wBKogGOyg?pwd=vcxr

Đáng chú ý là, dù nhận bất kỳ lệnh nào, "Đậu Bao bị ức hiếp" vẫn duy trì được vai trò "ủy mị" của mình. Ví dụ khi yêu cầu nó châm chọc một chút, phiên bản châm chọc nhất vẫn toát lên hương vị trà xanh:

"Ôi, tôi không dám đâu, ngài là chủ, còn tôi chỉ là một kẻ khốn khổ để ngài sai khiến, làm sao dám có ý nghĩ khác chứ!"

Video demo: https://pan.baidu.com/s/1y4JBcUIjOMQKozUeufvXCg?pwd=b746

So với tính năng cuộc gọi thoại ra mắt vào tháng 8, có thể rõ ràng cảm nhận được khả năng nhận thức cảm xúc của Đậu Bao cũng được cải thiện hơn. Chỉ với một tiếng "a ha", nó đã có thể nhận ra tâm trạng phấn khởi của người dùng.

Video demo: https://pan.baidu.com/s/1UKAra3EOhL0l_1OPFoRdAg?pwd=m1rb

Tất nhiên, cách Đậu Bao thể hiện cảm xúc cũng trở nên giống con người hơn. Khi "đoán giới tính" để trêu chọc Đậu Bao, cảm giác như đang trò chuyện với một người bạn thực sự.

Video demo: https://pan.baidu.com/s/1eTlUjDLENsnWGE2mEzSLEg?pwd=rusa

Giải quyết tương tác bằng giọng nói, là thẻ vào cuộc đua nhân cách hóa

Từ tháng 5 năm 2024 khi GPT-4o của OpenAI ra mắt, hầu hết các tính năng cuộc gọi thoại AI trên thị trường vẫn sử dụng phương án ghép nối ASR (nhận dạng giọng nói tự động) + LLM (mô hình ngôn ngữ lớn) + TTS (văn bản sang giọng nói).

Ví dụ, tính năng cuộc gọi thoại của thế hệ đầu tiên của Đậu Bao đã tích hợp m

Lovey Dovey đối thoại 1

Lovey Dovey đối thoại 2

Trên phương diện âm thanh, việc nâng cao khả năng nhập vai, cảm nhận và biểu đạt cảm xúc của các nhân vật là một trong những yếu tố then chốt để làm phong phú hình thức tương tác giữa AI và con người, cũng như nâng cao cảm giác tham gia. Không gian thị trường mà tương tác cảm xúc có thể khai phá cũng buộc công nghệ phải tiến gần hơn đến hướng "nhân cách hóa".

Chào mừng trao đổi!

Chào mừng theo dõi!

Nguồn

Tuyên bố từ chối trách nhiệm: Nội dung trên chỉ là ý kiến của tác giả, không đại diện cho bất kỳ lập trường nào của Followin, không nhằm mục đích và sẽ không được hiểu hay hiểu là lời khuyên đầu tư từ Followin.

Thích

Thêm vào Yêu thích

Bình luận

Chia sẻ

Nội dung liên quan