MTLM: an Innovative Language Model Training Paradigm for ASR

要約

大量のテキストでのトレーニング前の変圧器ベースの言語モデル(LMS)は、自動音声認識(ASR)のパフォーマンスを改善するために重要であることが証明されています。
一般に、従来のLMSは単方向であり、右側のコンテキストにアクセスできません。
このペーパーでは、従来の単方向LMSが左右のコンテキストを完全に利用できるようにするLMSをトレーニングする方法を提案します。
単方向LMSと比較して、LMはASRを促進し、より豊かな文脈表現が組み込まれているため、より一貫してより一貫して明確な方法で仮説を転写します。
最後に、Librispeech Corpusでの実験結果は、n-best scoringまたは浅い核融合を除くモデルが従来の単方向LMSを上回ることを示しています。

要約(オリジナル)

Pre-training Transformer-based language models (LMs) on a large amount of text has proven crucial for improving automatic speech recognition (ASR) performance. Generally, traditional LMs are unidirectional and unable to access the context on the right. This paper proposes a method for training LMs that enable traditional unidirectional LMs to fully utilize left and right contexts. Compared with the unidirectional LMs, our LM facilitates ASR to transcribe hypotheses more consistently and in a more semantically unambiguous way, as it incorporates richer contextual representations. Finally, our experimental results on the LibriSpeech corpus demonstrate that our model outperforms traditional unidirectional LMs, whether n-best rescoring or shallow fusion is used as the decoding algorithm.

arxiv情報

著者 Qingliang Meng,Pengju Ren,Tian Li,Changsong Dai
発行日 2025-02-14 10:21:10+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, eess.AS パーマリンク