Microsoft vừa mã nguồn mở một trí tuệ nhân tạo giọng nói tiên tiến có khả năng xử lý 60 phút âm thanh trong một lần duy nhất. Bạn tải lên một bản ghi âm. Hệ thống sẽ xác định từng người nói, thêm dấu thời gian vào mỗi từ và xuất ra một văn bản hoàn chỉnh có cấu trúc, chú thích ai nói gì và khi nào. Nó cũng hỗ trợ chuyển văn bản thành giọng nói theo thời gian thực với độ trễ âm thanh đầu tiên chỉ 300 mili giây và hỗ trợ hơn 50 ngôn ngữ. Hoàn toàn là mã nguồn mở. Liên kết: github.com/microsoft/VibeVoice...…
Bài viết này được dịch máy
Xem bản gốc

Từ Twitter
Tuyên bố từ chối trách nhiệm: Nội dung trên chỉ là ý kiến của tác giả, không đại diện cho bất kỳ lập trường nào của Followin, không nhằm mục đích và sẽ không được hiểu hay hiểu là lời khuyên đầu tư từ Followin.
Thích
Thêm vào Yêu thích
Bình luận
Chia sẻ
Nội dung liên quan



