Microsoft vừa mã nguồn mở một trí tuệ nhân tạo giọng nói tiên tiến có khả năng xử lý 60 phút âm thanh trong một lần duy nhất.
Bạn tải lên một bản ghi âm. Hệ thống sẽ xác định từng người nói, thêm dấu thời gian vào mỗi từ và xuất ra một văn bản hoàn chỉnh có cấu trúc, chú thích ai nói gì và khi nào.
Nó cũng hỗ trợ chuyển văn bản thành giọng nói theo thời gian thực với độ trễ âm thanh đầu tiên chỉ 300 mili giây và hỗ trợ hơn 50 ngôn ngữ.
Hoàn toàn là mã nguồn mở.
Liên kết: github.com/microsoft/VibeVoice...…