要約
自動音声認識 (ASR) 仮説に基づく格子再スコアリングに高度な神経言語モデル (NLM) の大規模なアンサンブルを使用することの有効性を調査します。
以前の研究では、少数の NLM を組み合わせる有効性が報告されています。
対照的に、この研究では、最大 8 つの NLM、つまり 2 つの異なるランダム初期化シードでトレーニングされた前方/後方長期短期記憶/Transformer-LM を組み合わせます。
これらの NLM は、反復的な格子生成を通じて結合されます。
これらの NLM は相互に補完的に機能するため、再スコアリングの反復ごとに 1 つずつ組み合わせることで、特定のラティス アークに関連付けられた言語スコアを徐々に改善することができます。
その結果、ASR 仮説の誤差は徐々に減少する可能性があります。
また、講義のスピーチなどの長いスピーチの格子シーケンス全体でコンテキスト情報 (以前の再スコアリング結果) を引き継ぐことの有効性も調査します。
講義音声コーパスを使用した実験では、8 つの NLM を組み合わせ、コンテキスト キャリーオーバーを使用することにより、ASR 1 の最良のベースラインから 24.4% の相対的な単語誤り率の減少が得られました。
さらに比較するために、NLM の大規模アンサンブルを使用して同時 (つまり、非反復) NLM の組み合わせと 100 のベスト スコアリングを実行しました。これにより、反復 NLM 組み合わせによる格子再スコアリングの利点が確認されました。
要約(オリジナル)
We investigate the effectiveness of using a large ensemble of advanced neural language models (NLMs) for lattice rescoring on automatic speech recognition (ASR) hypotheses. Previous studies have reported the effectiveness of combining a small number of NLMs. In contrast, in this study, we combine up to eight NLMs, i.e., forward/backward long short-term memory/Transformer-LMs that are trained with two different random initialization seeds. We combine these NLMs through iterative lattice generation. Since these NLMs work complementarily with each other, by combining them one by one at each rescoring iteration, language scores attached to given lattice arcs can be gradually refined. Consequently, errors of the ASR hypotheses can be gradually reduced. We also investigate the effectiveness of carrying over contextual information (previous rescoring results) across a lattice sequence of a long speech such as a lecture speech. In experiments using a lecture speech corpus, by combining the eight NLMs and using context carry-over, we obtained a 24.4% relative word error rate reduction from the ASR 1-best baseline. For further comparison, we performed simultaneous (i.e., non-iterative) NLM combination and 100-best rescoring using the large ensemble of NLMs, which confirmed the advantage of lattice rescoring with iterative NLM combination.
arxiv情報
著者 | Atsunori Ogawa,Naohiro Tawara,Marc Delcroix,Shoko Araki |
発行日 | 2023-12-20 04:52:24+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google