要約
大規模言語モデル (LLM) は、自動音声認識 (ASR) におけるエラー修正に大きな可能性を示しています。
ただし、ほとんどの研究は、教師あり ASR トレーニング用の音声データの主な形式である、短時間の音声録音からの発話に焦点を当てています。
この論文では、ポッドキャスト、ニュース放送、会議のトランスクリプトなど、より長い音声録音から ASR システムによって生成された全文のエラー訂正に対する LLM の有効性を調査します。
まず、音声合成、ASR、および誤り訂正ペア抽出機能を含むパイプラインを利用して、ChFT という名前の全文誤り訂正用の中国語データセットを開発します。
このデータセットを使用すると、フルテキストとセグメントの両方を含むコンテキスト全体にわたるエラーを修正でき、句読点の復元や逆テキスト正規化など、より広範囲のエラー タイプに対処できるため、修正プロセスが包括的になります。
次に、さまざまなプロンプトとターゲット形式のセットを使用して、構築されたデータセット上で事前トレーニングされた LLM を微調整し、全文エラー修正のパフォーマンスを評価します。
具体的には、直接修正されたテキストや JSON ベースのエラー修正ペアなど、さまざまな出力形式を考慮して、フルテキストとセグメントに基づいてプロンプトを設計します。
同種のテスト セット、最新のテスト セット、ハード テスト セットなどのさまざまなテスト設定を通じて、微調整された LLM は、さまざまなプロンプトを使用したフルテキスト設定で良好にパフォーマンスし、それぞれに独自の長所と短所があることがわかりました。
これにより、さらなる研究のための有望なベースラインが確立されます。
データセットはウェブサイトから入手できます。
要約(オリジナル)
Large Language Models (LLMs) have demonstrated substantial potential for error correction in Automatic Speech Recognition (ASR). However, most research focuses on utterances from short-duration speech recordings, which are the predominant form of speech data for supervised ASR training. This paper investigates the effectiveness of LLMs for error correction in full-text generated by ASR systems from longer speech recordings, such as transcripts from podcasts, news broadcasts, and meetings. First, we develop a Chinese dataset for full-text error correction, named ChFT, utilizing a pipeline that involves text-to-speech synthesis, ASR, and error-correction pair extractor. This dataset enables us to correct errors across contexts, including both full-text and segment, and to address a broader range of error types, such as punctuation restoration and inverse text normalization, thus making the correction process comprehensive. Second, we fine-tune a pre-trained LLM on the constructed dataset using a diverse set of prompts and target formats, and evaluate its performance on full-text error correction. Specifically, we design prompts based on full-text and segment, considering various output formats, such as directly corrected text and JSON-based error-correction pairs. Through various test settings, including homogeneous, up-to-date, and hard test sets, we find that the fine-tuned LLMs perform well in the full-text setting with different prompts, each presenting its own strengths and weaknesses. This establishes a promising baseline for further research. The dataset is available on the website.
arxiv情報
著者 | Zhiyuan Tang,Dong Wang,Shen Huang,Shidong Shang |
発行日 | 2024-09-12 06:50:45+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google