Generative Speech Recognition Error Correction with Large Language Models

要約

私たちは、再スコアリングとエラー修正を実行する ASR ポストプロセッサーとして機能する大規模言語モデル (LLM) の機能を調査します。
私たちは、LLM にこれらのタスクを微調整せずに実行させるための指示プロンプトに焦点を当てており、そのためにさまざまなプロンプト スキーム、ゼロショットおよび少数ショットの両方のコンテキスト内学習と、次のことを組み合わせた新しいタスク活性化プロンプト (TAP) 方法を評価します。
指導とデモンストレーション。
事前トレーニング済みのファーストパス システムと 2 つのドメイン外タスク (ATIS と WSJ) の出力のスコアリングを使用して、凍結 LLM によるコンテキスト内学習のみによるスコアリングが、ドメイン調整によるスコアリングと競合する結果を達成できることを示します。
LMたち。
プロンプト手法と微調整を組み合わせることで、N ベスト オラクル レベルを下回るエラー率を達成し、LLM の一般化能力を実証します。

要約(オリジナル)

We explore the ability of large language models (LLMs) to act as ASR post-processors that perform rescoring and error correction. Our focus is on instruction prompting to let LLMs perform these task without fine-tuning, for which we evaluate different prompting schemes, both zero- and few-shot in-context learning, and a novel task-activating prompting (TAP) method that combines instruction and demonstration. Using a pre-trained first-pass system and rescoring output on two out-of-domain tasks (ATIS and WSJ), we show that rescoring only by in-context learning with frozen LLMs achieves results that are competitive with rescoring by domain-tuned LMs. By combining prompting techniques with fine-tuning we achieve error rates below the N-best oracle level, showcasing the generalization power of the LLMs.

arxiv情報

著者 Chao-Han Huck Yang,Yile Gu,Yi-Chieh Liu,Shalini Ghosh,Ivan Bulyko,Andreas Stolcke
発行日 2023-09-27 13:36:03+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG, cs.SD, eess.AS パーマリンク