N-best T5: Robust ASR Error Correction using Multiple Input Hypotheses and Constrained Decoding Space

要約

エラー訂正モデルは、自動音声認識 (ASR) 後処理の重要な部分を形成し、文字起こしの読みやすさと品質を向上させます。
ほとんどの先行研究では、1-best ASR 仮説を​​入力として使用しているため、1 つの文内のコンテキストを活用することによってのみ修正を実行できます。
この作業では、このタスク用に新しい N ベスト T5 モデルを提案します。これは、T5 モデルから微調整され、ASR N ベスト リストをモデル入力として利用します。
事前にトレーニングされた言語モデルから知識を転送し、ASR デコード空間からより豊富な情報を取得することにより、提案されたアプローチは、強力な Conformer-Transducer ベースラインよりも優れています。
標準エラー修正のもう 1 つの問題は、生成プロセスが適切にガイドされていないことです。
これに対処するために、N ベスト リストまたは ASR ラティスのいずれかに基づく、制約付きのデコード プロセスが使用され、追加の情報を伝達できます。

要約(オリジナル)

Error correction models form an important part of Automatic Speech Recognition (ASR) post-processing to improve the readability and quality of transcriptions. Most prior works use the 1-best ASR hypothesis as input and therefore can only perform correction by leveraging the context within one sentence. In this work, we propose a novel N-best T5 model for this task, which is fine-tuned from a T5 model and utilizes ASR N-best lists as model input. By transferring knowledge from the pre-trained language model and obtaining richer information from the ASR decoding space, the proposed approach outperforms a strong Conformer-Transducer baseline. Another issue with standard error correction is that the generation process is not well-guided. To address this a constrained decoding process, either based on the N-best list or an ASR lattice, is used which allows additional information to be propagated.

arxiv情報

著者 Rao Ma,Mark J F Gales,Kate Knill,Mengjie Qian
発行日 2023-03-01 12:32:34+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.SD, eess.AS パーマリンク