싱가포르 국립대학교와 난양공과대학교를 비롯한 여러 대학에서 극심한 소음 환경에서 음성 인식 오류와 문자 누락을 줄이기 위해 Mega-ASR을 오픈소스로 공개했습니다.

이 기사는 기계로 번역되었습니다

원문 표시

ME 뉴스에 따르면, Beating의 모니터링 결과, 5월 22일(UTC+8) 싱가포르 국립대학교, 난양공과대학교, 상하이 인공지능 연구소 연구팀이 모든 시나리오에 적용 가능한 최초의 견고한 음성 인식 기반 모델인 Mega-ASR을 공동으로 오픈소스 공개했습니다. 이 모델은 실제 음성 인식 환경에서 발생하는 환청, 단어 누락, 공백 출력 등의 문제를 해결하는 것을 목표로 합니다. Qwen3-ASR 1.7B를 기반으로 하는 이 모델은 매우 복잡한 음향 환경에서 Whisper, Gemini 3 Pro, Seed-ASR과 같은 모델 대비 최대 30%에 가까운 성능 향상을 달성했습니다. 이 프로젝트는 현재 GitHub에서 오픈소스로 공개되어 있으며, 모든 코드와 모델 가중치는 Apache 2.0 라이선스 하에 배포됩니다. 연구팀은 240만 개의 샘플과 총 11,000시간 분량의 Voices-in-the-wild-2M 학습 데이터셋을 구축했습니다. 이 데이터셋은 잔향, 메아리, 가산 잡음, 원거리장, 주파수 패킷 손실, 대역폭 제한, 전단 왜곡 등 7가지 기본 음향 효과를 스펙트럼 물리적 특성에 기반한 시뮬레이션 파이프라인을 통해 합성하여 54개의 복합 환경 시나리오를 생성합니다. 학습 안정성을 확보하기 위해 연구팀은 단어 오류율이 70%를 초과하는 샘플을 필터링한 후 물리적 타당성 검사를 통해 데이터셋의 난이도 분포를 조정했습니다. 학습 메커니즘 측면에서 Mega-ASR은 음향에서 의미론으로 점진적으로 지도 학습하는 A2S-SFT 방식을 도입하여 오디오 특징을 단계적으로 정렬함으로써 심한 간섭 환경에서도 모델의 의미 복구 능력을 향상시킵니다. 정책 최적화 과정에서는 이중 세분성 단어 오류율 게이팅 전략을 사용하여 강화 학습을 위한 DG-WGPO를 최적화합니다. 입력 오디오 품질이 좋고 단어 오류율이 낮을 때는 문자 수준의 음향 세부 정보 재구성에 집중합니다. 오디오가 심하게 왜곡되고 단어 오류율이 높을 경우, 결정 메커니즘은 문장 수준의 의미 재구성으로 전환되어 대규모 모델에서 흔히 발생하는 환각 및 누락 단어를 크게 줄입니다. 깨끗한 오디오에서 발생할 수 있는 인식률의 약간의 감소를 해결하기 위해 Mega-ASR은 동적 라우팅 메커니즘을 통합했습니다. 라우팅 결정자는 현재 오디오의 품질을 자동으로 평가하고 LoRA를 적용하여 가중치를 미세 조정할지 여부를 지능적으로 결정함으로써 깨끗한 오디오 환경과 잡음이 있는 환경 모두에서 모델이 최적의 결과를 출력하도록 합니다. (출처: ME)

출처

면책조항: 상기 내용은 작자의 개인적인 의견입니다. 따라서 이는 Followin의 입장과 무관하며 Followin과 관련된 어떠한 투자 제안도 구성하지 않습니다.

라이크

즐겨찾기에 추가

코멘트