Hôm nay, chúng tôi chính thức ra mắt mô hình TTS mã nguồn mở đầu tiên của mình, TADA! TADA (Text Audio Dual Alignment) là một mô hình ngôn ngữ-giọng nói tạo ra văn bản và âm thanh trong một luồng đồng bộ để giảm thiểu hiện tượng ảo giác ở cấp độ token và cải thiện độ trễ. Điều này có nghĩa là: → Không có hiện tượng ảo giác nội dung trên hơn 1.000 mẫu thử nghiệm → Nhanh hơn gấp 5 lần so với các mô hình TTS dựa trên LLM cùng cấp → Chứa được âm thanh dài hơn nhiều: 2.048 token bao phủ khoảng 700 giây với TADA so với khoảng 70 giây trong các hệ thống thông thường → Bản ghi chép miễn phí cùng với âm thanh mà không làm tăng độ trễ
Bài viết này được dịch máy
Xem bản gốc
Từ Twitter
Tuyên bố từ chối trách nhiệm: Nội dung trên chỉ là ý kiến của tác giả, không đại diện cho bất kỳ lập trường nào của Followin, không nhằm mục đích và sẽ không được hiểu hay hiểu là lời khuyên đầu tư từ Followin.
Thích
Thêm vào Yêu thích
Bình luận
Chia sẻ
Nội dung liên quan





