Ý tưởng của Hume

03-11

Bài viết này được dịch máy

Xem bản gốc

Hôm nay, chúng tôi chính thức ra mắt mô hình TTS mã nguồn mở đầu tiên của mình, TADA! TADA (Text Audio Dual Alignment) là một mô hình ngôn ngữ-giọng nói tạo ra văn bản và âm thanh trong một luồng đồng bộ để giảm thiểu hiện tượng ảo giác ở cấp độ token và cải thiện độ trễ. Điều này có nghĩa là: → Không có hiện tượng ảo giác nội dung trên hơn 1.000 mẫu thử nghiệm → Nhanh hơn gấp 5 lần so với các mô hình TTS dựa trên LLM cùng cấp → Chứa được âm thanh dài hơn nhiều: 2.048 token bao phủ khoảng 700 giây với TADA so với khoảng 70 giây trong các hệ thống thông thường → Bản ghi chép miễn phí cùng với âm thanh mà không làm tăng độ trễ

Khu vực:

SEC Security Token

Layer 1

Hợp Đồng Thông Minh

Từ Twitter

Tuyên bố từ chối trách nhiệm: Nội dung trên chỉ là ý kiến của tác giả, không đại diện cho bất kỳ lập trường nào của Followin, không nhằm mục đích và sẽ không được hiểu hay hiểu là lời khuyên đầu tư từ Followin.

Thích

Thêm vào Yêu thích

Bình luận

Chia sẻ

Nội dung liên quan