要約
この研究では、音素認識と音素から書記素への翻訳モデルを強化することにより、低リソース言語における 2 パスの言語間転移学習を最適化します。
私たちのアプローチはこれら 2 つの段階を最適化し、言語間で音声認識を向上させます。
共通の調音特性に基づいて音素を結合することで音素語彙のカバー範囲を最適化し、認識精度を向上させます。
さらに、音素から書記素へのトレーニング中に現実的な ASR ノイズを生成するグローバル音素ノイズ ジェネレーターを導入して、エラーの伝播を削減します。
CommonVoice 12.0 データセットの実験では、低リソース言語の単語誤り率 (WER) が大幅に減少することが示されており、私たちのアプローチの有効性が強調されています。
この研究は、低リソース言語における 2 パス ASR システムの進歩に貢献し、言語間転移学習の改善の可能性をもたらします。
要約(オリジナル)
This research optimizes two-pass cross-lingual transfer learning in low-resource languages by enhancing phoneme recognition and phoneme-to-grapheme translation models. Our approach optimizes these two stages to improve speech recognition across languages. We optimize phoneme vocabulary coverage by merging phonemes based on shared articulatory characteristics, thus improving recognition accuracy. Additionally, we introduce a global phoneme noise generator for realistic ASR noise during phoneme-to-grapheme training to reduce error propagation. Experiments on the CommonVoice 12.0 dataset show significant reductions in Word Error Rate (WER) for low-resource languages, highlighting the effectiveness of our approach. This research contributes to the advancements of two-pass ASR systems in low-resource languages, offering the potential for improved cross-lingual transfer learning.
arxiv情報
著者 | Wonjun Lee,Gary Geunbae Lee,Yunsu Kim |
発行日 | 2023-12-06 06:37:24+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google