JEIT: Joint End-to-End Model and Internal Language Model Training for Speech Recognition

要約

エンドツーエンド (E2E) モデルと内部言語モデル (ILM) のジョイント トレーニング方法である JEIT を提案し、E2E トレーニング中に大規模な対になっていないテキストを ILM に挿入し、希少単語の音声認識を改善します。
JEIT を使用すると、E2E モデルは音声とトランスクリプトのペアの E2E 損失を計算し、ILM はペアになっていないテキストのクロスエントロピー損失を推定します。
E2E モデルは、E2E 損失と ILM 損失の加重和を最小化するようにトレーニングされています。
JEIT の間、ILM は対になっていないテキストから知識を吸収し、E2E トレーニングは正則化として機能します。
ILM 適応方法とは異なり、JEIT は個別の適応ステップを必要とせず、ILM のカルバック・ライブラー発散正則化の必要性を回避します。
また、モジュラー ハイブリッド自己回帰トランスデューサー (MHAT) は、JEIT フレームワークで HAT よりも優れたパフォーマンスを発揮し、ILM 適応中は HAT よりもはるかに堅牢であることも示しています。
ペアになっていないテキスト インジェクションの限界を押し上げるために、モダリティ マッチング、エンコーダー テキスト インジェクション、ILM トレーニングの恩恵を受ける JEIT と JOIST トレーニング (CJJT) を組み合わせることをさらに提案します。
JEIT と CJJT の両方が、より効果的な LM 融合を促進することができます。
JEIT/CJJT は、1000 億のペアになっていない文を使用して、ペアになっていないテキストを使用せずにトレーニングされたモデルよりも、まれな単語の認識精度を最大 16.4% 向上させます。

要約(オリジナル)

We propose JEIT, a joint end-to-end (E2E) model and internal language model (ILM) training method to inject large-scale unpaired text into ILM during E2E training which improves rare-word speech recognition. With JEIT, the E2E model computes an E2E loss on audio-transcript pairs while its ILM estimates a cross-entropy loss on unpaired text. The E2E model is trained to minimize a weighted sum of E2E and ILM losses. During JEIT, ILM absorbs knowledge from unpaired text while the E2E training serves as regularization. Unlike ILM adaptation methods, JEIT does not require a separate adaptation step and avoids the need for Kullback-Leibler divergence regularization of ILM. We also show that modular hybrid autoregressive transducer (MHAT) performs better than HAT in the JEIT framework, and is much more robust than HAT during ILM adaptation. To push the limit of unpaired text injection, we further propose a combined JEIT and JOIST training (CJJT) that benefits from modality matching, encoder text injection and ILM training. Both JEIT and CJJT can foster a more effective LM fusion. With 100B unpaired sentences, JEIT/CJJT improves rare-word recognition accuracy by up to 16.4% over a model trained without unpaired text.

arxiv情報

著者 Zhong Meng,Weiran Wang,Rohit Prabhavalkar,Tara N. Sainath,Tongzhou Chen,Ehsan Variani,Yu Zhang,Bo Li,Andrew Rosenberg,Bhuvana Ramabhadran
発行日 2023-02-16 21:07:38+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG, cs.SD, eess.AS パーマリンク