Can Generative Large Language Models Perform ASR Error Correction?

要約

ASR エラー修正は、音声認識システムの後処理の重要な部分として機能し続けています。
従来、これらのモデルは、基礎となる ASR システムのデコード結果と参照テキストを使用した教師ありトレーニングでトレーニングされます。
このアプローチは計算集約的であり、基礎となる ASR モデルを切り替えるときにモデルを再トレーニングする必要があります。
近年、大規模な言語モデルが開発され、自然言語処理タスクをゼロショットで実行できるようになりました。
このペーパーでは、ChatGPT を例として、ゼロショットまたは 1 ショット設定で ASR エラー訂正を実行する能力を検証します。
我々は、ASR N-best リストをモデル入力として使用し、制約なしの誤り訂正方法と制約付きの N-best 誤り訂正方法を提案します。
Conformer-Transducer モデルと事前トレーニング済み Whisper モデルの結果は、強力な ChatGPT モデルを使用したエラー修正により ASR システムのパフォーマンスを大幅に向上できることを示しています。

要約(オリジナル)

ASR error correction continues to serve as an important part of post-processing for speech recognition systems. Traditionally, these models are trained with supervised training using the decoding results of the underlying ASR system and the reference text. This approach is computationally intensive and the model needs to be re-trained when switching the underlying ASR model. Recent years have seen the development of large language models and their ability to perform natural language processing tasks in a zero-shot manner. In this paper, we take ChatGPT as an example to examine its ability to perform ASR error correction in the zero-shot or 1-shot settings. We use the ASR N-best list as model input and propose unconstrained error correction and N-best constrained error correction methods. Results on a Conformer-Transducer model and the pre-trained Whisper model show that we can largely improve the ASR system performance with error correction using the powerful ChatGPT model.

arxiv情報

著者 Rao Ma,Mengjie Qian,Potsawee Manakul,Mark Gales,Kate Knill
発行日 2023-07-09 13:38:25+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.SD, eess.AS パーマリンク