要約
この論文では、自動音声認識 (ASR) 後の生成音声誤り訂正 (GenSEC) に Flan-T5 を活用したエンコーダ/デコーダ モデルを紹介します。これを FlanEC と呼びます。
私たちは、n-best 仮説を 1 つの出力文にマッピングすることで ASR 出力を強化するために、GenSEC フレームワーク内でのその応用を検討します。
ASR モデルからの n-best リストを利用することで、最終的な ASR 転写の言語的な正確さ、正確さ、文法性を向上させることを目指しています。
具体的には、トレーニング データをスケーリングし、多様なデータセットを組み込むことで、ASR 後のエラー修正が大幅に改善されるかどうかを調査します。
HyPoradise データセットを使用して FlanEC を評価し、この領域におけるモデルの有効性の包括的な分析を提供します。
さらに、提案されたアプローチをさまざまな設定で評価してモデルのスケーラビリティと効率を評価し、このタスクに対する命令調整されたエンコーダ/デコーダ モデルの可能性についての貴重な洞察を提供します。
要約(オリジナル)
In this paper, we present an encoder-decoder model leveraging Flan-T5 for post-Automatic Speech Recognition (ASR) Generative Speech Error Correction (GenSEC), and we refer to it as FlanEC. We explore its application within the GenSEC framework to enhance ASR outputs by mapping n-best hypotheses into a single output sentence. By utilizing n-best lists from ASR models, we aim to improve the linguistic correctness, accuracy, and grammaticality of final ASR transcriptions. Specifically, we investigate whether scaling the training data and incorporating diverse datasets can lead to significant improvements in post-ASR error correction. We evaluate FlanEC using the HyPoradise dataset, providing a comprehensive analysis of the model’s effectiveness in this domain. Furthermore, we assess the proposed approach under different settings to evaluate model scalability and efficiency, offering valuable insights into the potential of instruction-tuned encoder-decoder models for this task.
arxiv情報
著者 | Moreno La Quatra,Valerio Mario Salerno,Yu Tsao,Sabato Marco Siniscalchi |
発行日 | 2025-01-22 16:06:04+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google