Towards Maximum Likelihood Training for Transducer-based Streaming Speech Recognition

要約

トランスデューサー ニューラル ネットワークは、ストリーミング自動音声認識 (ASR) の主流のアプローチとして台頭しており、精度と遅延のバランスにおいて最先端のパフォーマンスを提供します。
従来のフレームワークでは、ストリーミング トランスデューサ モデルは、非ストリーミング再帰ルールに基づいて尤度関数を最大化するようにトレーニングされます。
ただし、このアプローチではトレーニングと推論の間に不一致が生じ、その結果、尤度が歪められ、その結果、ASR 精度が最適化されないという問題が発生します。
実際の尤度と変形された尤度の間のギャップを数学的に定量化したもの、つまり順変数因果補償 (FoCC) を導入します。
また、正確な可能性を推定するためのソリューションとして、その推定器 FoCCE も紹介します。
LibriSpeech データセットの実験を通じて、FoCCE トレーニングによりストリーミング トランスデューサーの精度が向上することを示しました。

要約(オリジナル)

Transducer neural networks have emerged as the mainstream approach for streaming automatic speech recognition (ASR), offering state-of-the-art performance in balancing accuracy and latency. In the conventional framework, streaming transducer models are trained to maximize the likelihood function based on non-streaming recursion rules. However, this approach leads to a mismatch between training and inference, resulting in the issue of deformed likelihood and consequently suboptimal ASR accuracy. We introduce a mathematical quantification of the gap between the actual likelihood and the deformed likelihood, namely forward variable causal compensation (FoCC). We also present its estimator, FoCCE, as a solution to estimate the exact likelihood. Through experiments on the LibriSpeech dataset, we show that FoCCE training improves the accuracy of the streaming transducers.

arxiv情報

著者 Hyeonseung Lee,Ji Won Yoon,Sungsoo Kim,Nam Soo Kim
発行日 2024-11-26 15:53:13+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, eess.AS パーマリンク