Hume

Hume

15,865 người theo dõi trên Twitter

Theo dõi

Empathic AI research lab✨ building AI with emotional intelligence: https://demo.hume.ai

Bài đăng

Hôm nay, chúng tôi chính thức ra mắt mô hình TTS mã nguồn mở đầu tiên của mình, TADA! TADA (Text Audio Dual Alignment) là một mô hình ngôn ngữ-giọng nói tạo ra văn bản và âm thanh trong một luồng đồng bộ để giảm thiểu hiện tượng ảo giác ở cấp độ token và cải thiện độ trễ. Điều này có nghĩa là: → Không có hiện tượng ảo giác nội dung trên hơn 1.000 mẫu thử nghiệm → Nhanh hơn gấp 5 lần so với các mô hình TTS dựa trên LLM cùng cấp → Chứa được âm thanh dài hơn nhiều: 2.048 token bao phủ khoảng 700 giây với TADA so với khoảng 70 giây trong các hệ thống thông thường → Bản ghi chép miễn phí cùng với âm thanh mà không làm tăng độ trễ

-- HẾT --