新加坡國立與南洋理工等開源Mega-ASR,降低極端噪聲下ASR幻覺與丟字

ME News 消息,5 月 22 日(UTC+8),據 動察 Beating 監測,新加坡國立大學、南洋理工大學與上海人工智能實驗室等團隊聯合開源首個全場景魯棒語音識別基座模型 Mega-ASR,旨在解決真實環境下語音識別面臨的幻覺、丟字和空白輸出等問題。模型以 Qwen3-ASR 1.7B 為底層驅動,在極端複雜聲學環境下相比 Whisper、Gemini 3 Pro 和 Seed-ASR 等模型實現最高近 30% 的性能提升。目前項目已在 GitHub 開源,並採用 Apache-2.0 協議發佈全部代碼和模型權重。 研究團隊構建了包含 240 萬個樣本、總長 1.1 萬小時的 Voices-in-the-wild-2M 訓練數據集。數據集通過基於頻譜物理特性的模擬流水線,合成涵蓋混響、回聲、加性噪聲、遠場、頻率丟包、帶寬限制以及剪切失真 7 種原子聲學效應,並衍生出 54 種複合環境場景。為確保訓練的穩定性,團隊在過濾掉詞錯誤率超過 70% 的樣本後,通過物理合理性檢測對數據集難度分佈進行校準。 在訓練機制上,Mega-ASR 引入了聲學到語義漸進式監督微調 A2S-SFT,分階段對音頻特徵進行對齊,以增強模型在重度干擾下的語義恢復能力。在策略優化階段,模型採用雙粒度詞錯誤率門控策略優化 DG-WGPO 進行強化學習。當輸入音頻質量較好、詞錯誤率較低時,系統側重字符級的聲學細節重建。若音頻嚴重失真、詞錯誤率較高,決策機制則轉向句子級的語義重構,大幅減少大模型常見的幻覺與漏字現象。 為了應對在乾淨音頻下可能出現的識別率略微下降,Mega-ASR 內置了動態路由機制。路由決策器能自動評估當前音頻的質量,智能決定是否掛載 LoRA 微調權重,從而保證模型在乾淨和嘈雜場景下都能輸出最優結果。 (來源:ME)

來源
免責聲明:以上內容僅為作者觀點,不代表Followin的任何立場,不構成與Followin相關的任何投資建議。
喜歡
收藏
評論