要約
最新の大規模言語モデル (LLM) の強みを基盤として、生成的誤り訂正 (GEC) は、最新の自動音声認識 (ASR) システムのパフォーマンスを向上できる有望なパラダイムとして浮上しています。
代表的なアプローチの 1 つは、コンテキスト学習を活用して LLM にプロンプトを出し、慎重に設計されたプロンプトと ASR システムによって生成された $N$-best の仮説リストに基づいて LLM によってより適切な仮説を生成できるようにすることです。
ただし、既存のプロンプトが ASR 後のエラー修正タスクにとって最も効果的なプロンプトであるかどうかはまだ不明です。
これに関連して、この論文では、最初に代替プロンプトを調査して効果的なプロンプトの初期セットを特定し、次に進化的プロンプト最適化アルゴリズムを使用して初期プロンプトを改良することを提案します。
SLT $2024$ GenSEC チャレンジのタスク $1$ の CHiME-4 サブセットに関する評価結果は、提案されたアルゴリズムの有効性と可能性を示しています。
要約(オリジナル)
Building upon the strength of modern large language models (LLMs), generative error correction (GEC) has emerged as a promising paradigm that can elevate the performance of modern automatic speech recognition (ASR) systems. One representative approach is to leverage in-context learning to prompt LLMs so that a better hypothesis can be generated by the LLMs based on a carefully-designed prompt and an $N$-best list of hypotheses produced by ASR systems. However, it is yet unknown whether the existing prompts are the most effective ones for the task of post-ASR error correction. In this context, this paper first explores alternative prompts to identify an initial set of effective prompts, and then proposes to employ an evolutionary prompt optimization algorithm to refine the initial prompts. Evaluations results on the CHiME-4 subset of the Task $1$ of the SLT $2024$ GenSEC challenge show the effectiveness and potential of the proposed algorithms.
arxiv情報
著者 | Rithik Sachdev,Zhong-Qiu Wang,Chao-Han Huck Yang |
発行日 | 2024-07-23 10:38:49+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google