新加坡国立与南洋理工等开源Mega-ASR,降低极端噪声下ASR幻觉与丢字

ME News 消息,5 月 22 日(UTC+8),据 动察 Beating 监测,新加坡国立大学、南洋理工大学与上海人工智能实验室等团队联合开源首个全场景鲁棒语音识别基座模型 Mega-ASR,旨在解决真实环境下语音识别面临的幻觉、丢字和空白输出等问题。模型以 Qwen3-ASR 1.7B 为底层驱动,在极端复杂声学环境下相比 Whisper、Gemini 3 Pro 和 Seed-ASR 等模型实现最高近 30% 的性能提升。目前项目已在 GitHub 开源,并采用 Apache-2.0 协议发布全部代码和模型权重。 研究团队构建了包含 240 万个样本、总长 1.1 万小时的 Voices-in-the-wild-2M 训练数据集。数据集通过基于频谱物理特性的模拟流水线,合成涵盖混响、回声、加性噪声、远场、频率丢包、带宽限制以及剪切失真 7 种原子声学效应,并衍生出 54 种复合环境场景。为确保训练的稳定性,团队在过滤掉词错误率超过 70% 的样本后,通过物理合理性检测对数据集难度分布进行校准。 在训练机制上,Mega-ASR 引入了声学到语义渐进式监督微调 A2S-SFT,分阶段对音频特征进行对齐,以增强模型在重度干扰下的语义恢复能力。在策略优化阶段,模型采用双粒度词错误率门控策略优化 DG-WGPO 进行强化学习。当输入音频质量较好、词错误率较低时,系统侧重字符级的声学细节重建。若音频严重失真、词错误率较高,决策机制则转向句子级的语义重构,大幅减少大模型常见的幻觉与漏字现象。 为了应对在干净音频下可能出现的识别率略微下降,Mega-ASR 内置了动态路由机制。路由决策器能自动评估当前音频的质量,智能决定是否挂载 LoRA 微调权重,从而保证模型在干净和嘈杂场景下都能输出最优结果。 (来源:ME)

来源
免责声明:以上内容仅为作者观点,不代表Followin的任何立场,不构成与Followin相关的任何投资建议。
喜欢
收藏
评论