Leveraging Cross-Utterance Context For ASR Decoding

要約

外部言語モデル (LM) は自動音声認識システムのデコード段階に組み込まれることがよくありますが、これらのモデルは通常、限られたコンテキストで動作します。
クロス発話情報は、2 パス目の再スコアリング中に有益であることが示されていますが、これにより、1 パス目の LM が利用できるローカル情報に基づく仮説空間が制限されます。
この研究では、ビーム探索による音響モデルのクロス発話復号化にロングコンテキスト変換器 LM を組み込むことを調査し、n-best 再スコアリングの結果と比較します。
結果は、ビーム検索によりクロス発話コンテキストの使用が改善されることを示しています。
ロングフォーマットのデータセット AMI で評価した場合、結果は、単一発話設定と比較して、開発セットとテストセットで 0.7\% および 0.3\% の絶対的な削減を示し、以前のコンテキストのトークンを最大 500 個含めると改善されました。
Tedlium-1 についても評価が提供されますが、絶対的な約 0.1\% というそれほど重要ではない改善が見られます。

要約(オリジナル)

While external language models (LMs) are often incorporated into the decoding stage of automated speech recognition systems, these models usually operate with limited context. Cross utterance information has been shown to be beneficial during second pass re-scoring, however this limits the hypothesis space based on the local information available to the first pass LM. In this work, we investigate the incorporation of long-context transformer LMs for cross-utterance decoding of acoustic models via beam search, and compare against results from n-best rescoring. Results demonstrate that beam search allows for an improved use of cross-utterance context. When evaluating on the long-format dataset AMI, results show a 0.7\% and 0.3\% absolute reduction on dev and test sets compared to the single-utterance setting, with improvements when including up to 500 tokens of prior context. Evaluations are also provided for Tedlium-1 with less significant improvements of around 0.1\% absolute.

arxiv情報

著者 Robert Flynn,Anton Ragni
発行日 2023-06-29 12:48:25+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.SD, eess.AS パーマリンク