要約
大規模言語モデルに基づく誤り訂正 (EC) は、自動音声認識 (ASR) システムのパフォーマンスを強化するための新しいテクノロジです。
一般に、EC のトレーニング データは、大規模な ASR 仮説セット (ソースとして) とそのゴールド参照 (ターゲットとして) を自動的にペアリングすることによって収集されます。
ただし、そのようなペアの品質は保証されておらず、EC モデルを脆弱にする可能性のあるさまざまなタイプのノイズが観察されました。
ドメイン外 (OOD) 設定での過剰修正を引き起こします。
この研究では、EC トレーニング データが満たすべき 2 つの基本的な基準を提案します。つまり、EC ターゲットは、(1) ソースに対する言語的受容性を向上させること、および (2) 利用可能なコンテキスト (ソース音素など) から推論可能であることです。
これらの基準を通じて、低品質の EC ペアを特定し、そのような場合には修正を行わないようにモデルをトレーニングします。このプロセスを保守的なデータ フィルタリングと呼んでいます。
私たちの実験では、ベースラインとして強力な Conformer-CTC を使用して日本の ASR に焦点を当て、EC 用に日本の LLM を微調整します。
一連の 21 の内部ベンチマークでの評価を通じて、当社のアプローチが過剰補正を大幅に削減し、困難な OOD 設定における ASR 結果の精度と品質の両方を向上できることを実証しました。
要約(オリジナル)
Error correction (EC) based on large language models is an emerging technology to enhance the performance of automatic speech recognition (ASR) systems. Generally, training data for EC are collected by automatically pairing a large set of ASR hypotheses (as sources) and their gold references (as targets). However, the quality of such pairs is not guaranteed, and we observed various types of noise which can make the EC models brittle, e.g. inducing overcorrection in out-of-domain (OOD) settings. In this work, we propose two fundamental criteria that EC training data should satisfy: namely, EC targets should (1) improve linguistic acceptability over sources and (2) be inferable from the available context (e.g. source phonemes). Through these criteria, we identify low-quality EC pairs and train the models not to make any correction in such cases, the process we refer to as conservative data filtering. In our experiments, we focus on Japanese ASR using a strong Conformer-CTC as the baseline and finetune Japanese LLMs for EC. Through our evaluation on a suite of 21 internal benchmarks, we demonstrate that our approach can significantly reduce overcorrection and improve both the accuracy and quality of ASR results in the challenging OOD settings.
arxiv情報
著者 | Takuma Udagawa,Masayuki Suzuki,Masayasu Muraoka,Gakuto Kurata |
発行日 | 2024-10-16 14:52:16+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google