Đại học Quốc gia Singapore và Đại học Công nghệ Nanyang, cùng với một số trường khác, mã nguồn mở Mega-ASR để giảm thiểu hiện tượng ảo giác nhận dạng giọng nói tự động (ASR) và tình trạng bỏ sót ký tự trong điều kiện nhiễu cực mạnh.

Bài viết này được dịch máy

Xem bản gốc

Theo ME News, vào ngày 22 tháng 5 (UTC+8), dựa trên sự giám sát của Beating, đội ngũ từ Đại học Quốc gia Singapore, Đại học Công nghệ Nanyang và Phòng thí nghiệm Trí tuệ Nhân tạo Thượng Hải đã cùng nhau mã nguồn mở Mega-ASR, mô hình nền tảng nhận dạng giọng nói mạnh mẽ đầu tiên cho mọi tình huống. Mô hình này nhằm giải quyết các vấn đề như ảo giác, thiếu từ và đầu ra trống trong hoàn cảnh nhận dạng giọng nói thực tế. Được hỗ trợ bởi Qwen3-ASR 1.7B, mô hình đạt được hiệu suất cải thiện lên đến gần 30% so với các mô hình như Whisper, Gemini 3 Pro và Seed -ASR trong hoàn cảnh âm thanh cực kỳ phức tạp. Dự án hiện đang mã nguồn mở trên GitHub, với tất cả mã và tỷ trọng mô hình được phát hành theo giấy phép Apache-2.0. Đội ngũ nghiên cứu đã xây dựng dữ liệu huấn luyện Voices-in-the-wild-2M, chứa 2,4 triệu mẫu và tổng thời lượng 11.000 giờ. Dữ liệu sử dụng một quy trình mô phỏng dựa trên các đặc tính vật lý quang phổ để tổng hợp bảy hiệu ứng âm thanh nguyên tử, bao gồm tiếng vang, tiếng vọng, nhiễu cộng, trường xa, mất gói tần số, giới hạn băng thông và biến dạng cắt xén, và tạo ra 54 kịch bản hoàn cảnh tổng hợp. Để đảm bảo tính ổn định của quá trình huấn luyện, đội ngũ đã hiệu chỉnh phân bố độ khó dữ liệu thông qua các kiểm tra tính khả thi vật lý sau khi lọc ra các mẫu có tỷ lệ lỗi từ vượt quá 70%. Về cơ chế huấn luyện, Mega-ASR giới thiệu phương pháp tinh chỉnh có giám sát tiến triển từ âm thanh sang ngữ nghĩa A2S-SFT, căn chỉnh các đặc trưng âm thanh theo từng giai đoạn để tăng cường khả năng phục hồi ngữ nghĩa của mô hình trong điều kiện nhiễu nặng. Trong quá trình tối ưu hóa chính sách, mô hình sử dụng chiến lược cổng tỷ lệ lỗi từ độ chi tiết kép để tối ưu hóa DG-WGPO cho học tăng cường. Khi chất lượng âm thanh đầu vào tốt và tỷ lệ lỗi từ thấp, hệ thống tập trung vào việc tái tạo chi tiết âm thanh ở cấp độ ký tự. Nếu âm thanh bị biến dạng nghiêm trọng và tỷ lệ lỗi từ cao, cơ chế quyết định sẽ chuyển sang tái tạo ngữ nghĩa ở cấp độ câu, giảm đáng kể hiện tượng ảo giác và thiếu từ thường gặp trong các mô hình lớn. Để giải quyết sự giảm nhẹ về tỷ lệ nhận dạng có thể xảy ra với âm thanh sạch, Mega-ASR tích hợp cơ chế định tuyến động. Bộ quyết định định tuyến tự động đánh giá chất lượng âm thanh hiện tại và quyết định một cách thông minh xem có nên áp dụng tỷ trọng tinh chỉnh LoRA hay không, đảm bảo mô hình đưa ra kết quả tối ưu trong cả trường hợp âm thanh sạch và nhiễu. (Nguồn: ME)

Nguồn

Tuyên bố từ chối trách nhiệm: Nội dung trên chỉ là ý kiến của tác giả, không đại diện cho bất kỳ lập trường nào của Followin, không nhằm mục đích và sẽ không được hiểu hay hiểu là lời khuyên đầu tư từ Followin.

Thích

Thêm vào Yêu thích

Bình luận

Chia sẻ

Nội dung liên quan

Tin Tức Bitcoin

Thợ đào Bitcoin vẫn mạnh, BTC phụ thuộc vào động thái tiếp theo của ai?

BTC

0.38%

ME News

Nous Research xác nhận rằng lợi ích của việc phân đoạn từ có thể được mô phỏng bằng cách sử dụng byte thuần túy, đánh dấu một bước đột phá cho các mô hình quy mô lớn không cần phân đoạn từ.

Tin Tức Bitcoin

Cảnh báo: Nhóm lừa đảo giả mạo Jupiter phát tán CJUP giả

JUP

1.99%