Towards scalable efficient on-device ASR with transfer learning

要約

転移学習の多言語事前トレーニングにより、低リソースの単言語 ASR モデルの堅牢性が大幅に向上します。
この研究では、次の 3 つの主要な側面を系統的に調査しています: (a) 初期トレーニングまたは微調整中のモデルのパフォーマンスに対する転移学習の影響、(b) データセット ドメインおよび言語全体にわたる転移学習の影響、(c) まれなデータセットへの影響
単語認識を、珍しい単語と比較した。
私たちの調査結果は、RNNT 損失の事前トレーニングとそれに続く最小単語誤り率 (MinWER) 損失による単一言語の微調整により、イタリア語やフランス語などの言語全体で一貫して単語誤り率 (WER) が低下することを示唆しています。
MLS および社内データセットの単一言語ベースラインと比較して、WER 削減 (WERR) は 36.2% および 42.8% に達しました。
ドメイン外の事前トレーニングでは、ドメイン内の事前トレーニングよりも 28% 高い WERR が発生します。
希少語と非希少語の両方にメリットがあり、希少語はドメイン外の事前トレーニングで大きな改善が見られ、非希少語はドメイン内の事前トレーニングでより大きな改善が見られます。

要約(オリジナル)

Multilingual pretraining for transfer learning significantly boosts the robustness of low-resource monolingual ASR models. This study systematically investigates three main aspects: (a) the impact of transfer learning on model performance during initial training or fine-tuning, (b) the influence of transfer learning across dataset domains and languages, and (c) the effect on rare-word recognition compared to non-rare words. Our finding suggests that RNNT-loss pretraining, followed by monolingual fine-tuning with Minimum Word Error Rate (MinWER) loss, consistently reduces Word Error Rates (WER) across languages like Italian and French. WER Reductions (WERR) reach 36.2% and 42.8% compared to monolingual baselines for MLS and in-house datasets. Out-of-domain pretraining leads to 28% higher WERR than in-domain pretraining. Both rare and non-rare words benefit, with rare words showing greater improvements with out-of-domain pretraining, and non-rare words with in-domain pretraining.

arxiv情報

著者 Laxmi Pandey,Ke Li,Jinxi Guo,Debjyoti Paul,Arthur Guo,Jay Mahadeokar,Xuedong Zhang
発行日 2024-07-23 17:29:02+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, eess.AS パーマリンク