Investigating the Effect of Language Models in Sequence Discriminative Training for Neural Transducers

要約

この研究では、音素ベースの神経トランスデューサーのシーケンス識別トレーニングで使用される、さまざまなコンテキスト長とラベル単位 (音素対単語) を持つ言語モデル (LM) の効果を調査します。
ラティスフリーアプローチと N ベストリストアプローチの両方が検討されます。
音素レベルの LM を使用したラティスフリー法については、フルコンテキスト依存性を持つ LM を使用するためにコンテキスト履歴を近似する方法を提案します。
この近似は任意のコンテキスト長まで拡張でき、ラティスフリー手法でワードレベルの LM を使用できるようになります。
さらに、格子なしの方法と N ベスト リスト ベースの方法の間で体系的な比較が行われます。
Librispeech の実験結果では、トレーニングで単語レベルの LM を使用すると、音素レベルの LM よりも優れたパフォーマンスが得られることが示されています。
さらに、確率計算に使用される LM のコンテキスト サイズがパフォーマンスに与える影響は限定的であることがわかりました。
さらに、我々の結果は、シーケンス判別トレーニングにおける仮説空間の品質の極めて重要な重要性を明らかにしています。

要約(オリジナル)

In this work, we investigate the effect of language models (LMs) with different context lengths and label units (phoneme vs. word) used in sequence discriminative training for phoneme-based neural transducers. Both lattice-free and N-best-list approaches are examined. For lattice-free methods with phoneme-level LMs, we propose a method to approximate the context history to employ LMs with full-context dependency. This approximation can be extended to arbitrary context length and enables the usage of word-level LMs in lattice-free methods. Moreover, a systematic comparison is conducted across lattice-free and N-best-list-based methods. Experimental results on Librispeech show that using the word-level LM in training outperforms the phoneme-level LM. Besides, we find that the context size of the LM used for probability computation has a limited effect on performance. Moreover, our results reveal the pivotal importance of the hypothesis space quality in sequence discriminative training.

arxiv情報

著者 Zijian Yang,Wei Zhou,Ralf Schlüter,Hermann Ney
発行日 2023-10-11 09:53:17+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.SD, eess.AS パーマリンク