要約
内部言語モデル (ILM) の減算は、音声認識用の外部言語モデル (LM) の融合と RNN トランスデューサーのパフォーマンスを向上させるために広く適用されています。
この研究では、理論的および経験的観点の両方から、シーケンスの識別トレーニングが ILM 減算と強い相関関係があることを示します。
理論的には、最大相互情報量 (MMI) トレーニングのグローバル最適化は ILM 減算と同様の式を共有することが導出されます。
経験的に、ILM サブトラクションとシーケンス識別トレーニングは、MMI と最小ベイズ リスク (MBR) 基準の両方、完全なコンテキストと限定されたコンテキストの両方の神経トランスデューサーと LM を含む、Librispeech の幅広い実験にわたって同様のパフォーマンスを達成することを示しています。
ILM 減算の利点も、シーケンス判別トレーニング後は大幅に小さくなります。
また、シーケンス識別トレーニングが一般的に使用されるゼロエンコーダー ILM 推定に与える影響は最小限であるが、エンコーダーと予測の両方に対する共同効果と、ILM とブランク抑制の両方を含む事後確率再形成のための共同ネットワークを示す詳細な研究も提供します。
。
要約(オリジナル)
Internal language model (ILM) subtraction has been widely applied to improve the performance of the RNN-Transducer with external language model (LM) fusion for speech recognition. In this work, we show that sequence discriminative training has a strong correlation with ILM subtraction from both theoretical and empirical points of view. Theoretically, we derive that the global optimum of maximum mutual information (MMI) training shares a similar formula as ILM subtraction. Empirically, we show that ILM subtraction and sequence discriminative training achieve similar performance across a wide range of experiments on Librispeech, including both MMI and minimum Bayes risk (MBR) criteria, as well as neural transducers and LMs of both full and limited context. The benefit of ILM subtraction also becomes much smaller after sequence discriminative training. We also provide an in-depth study to show that sequence discriminative training has a minimal effect on the commonly used zero-encoder ILM estimation, but a joint effect on both encoder and prediction + joint network for posterior probability reshaping including both ILM and blank suppression.
arxiv情報
著者 | Zijian Yang,Wei Zhou,Ralf Schlüter,Hermann Ney |
発行日 | 2023-09-25 13:35:28+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google