Hôm nay, chúng tôi chính thức ra mắt mô hình TTS mã nguồn mở đầu tiên của mình, TADA!
TADA (Text Audio Dual Alignment) là một mô hình ngôn ngữ-giọng nói tạo ra văn bản và âm thanh trong một luồng đồng bộ để giảm thiểu hiện tượng ảo giác ở cấp độ token và cải thiện độ trễ.
Điều này có nghĩa là:
→ Không có hiện tượng ảo giác nội dung trên hơn 1.000 mẫu thử nghiệm
→ Nhanh hơn gấp 5 lần so với các mô hình TTS dựa trên LLM cùng cấp
→ Chứa được âm thanh dài hơn nhiều: 2.048 token bao phủ khoảng 700 giây với TADA so với khoảng 70 giây trong các hệ thống thông thường
→ Bản ghi chép miễn phí cùng với âm thanh mà không làm tăng độ trễ