Can Generative Large Language Models Perform ASR Error Correction?

要約

ASR エラー修正は、音声認識システムの出力を後処理するための興味深いオプションです。
これらの誤り訂正モデルは通常、ターゲット ASR システムのデコード結果を使用して教師あり形式でトレーニングされます。
このアプローチは計算量が多くなる可能性があり、モデルは特定の ASR システムに合わせて調整されます。
最近、生成大規模言語モデル (LLM) は、ゼロショットまたは少数ショット方式で動作できるため、幅広い自然言語処理タスクに適用されています。
この論文では、ASR エラー修正に生成 LLM である ChatGPT を使用して調査します。
ASR N-best 出力に基づいて、N-best リストのメンバーが選択される、制約なしアプローチと制約ありアプローチの両方を提案します。
さらに、ゼロおよび 1 ショット設定も評価されます。
実験では、この生成 LLM アプローチが、トランスデューサーおよびアテンション エンコーダー デコーダー ベースの 2 つの異なる最先端の ASR アーキテクチャと複数のテスト セットでパフォーマンスの向上をもたらすことができることを示しています。

要約(オリジナル)

ASR error correction is an interesting option for post processing speech recognition system outputs. These error correction models are usually trained in a supervised fashion using the decoding results of a target ASR system. This approach can be computationally intensive and the model is tuned to a specific ASR system. Recently generative large language models (LLMs) have been applied to a wide range of natural language processing tasks, as they can operate in a zero-shot or few shot fashion. In this paper we investigate using ChatGPT, a generative LLM, for ASR error correction. Based on the ASR N-best output, we propose both unconstrained and constrained, where a member of the N-best list is selected, approaches. Additionally, zero and 1-shot settings are evaluated. Experiments show that this generative LLM approach can yield performance gains for two different state-of-the-art ASR architectures, transducer and attention-encoder-decoder based, and multiple test sets.

arxiv情報

著者 Rao Ma,Mengjie Qian,Potsawee Manakul,Mark Gales,Kate Knill
発行日 2023-09-29 07:32:03+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.SD, eess.AS パーマリンク