HyPoradise: An Open Baseline for Generative Speech Recognition with Large Language Models

要約

ディープ ニューラル ネットワークの進歩により、自動音声認識 (ASR) システムは、公開されているいくつかのクリーンな音声データセットに対して人間と同等の性能を達成できるようになりました。
ただし、よく訓練された音響モデルは背景雑音などの音声領域の変動に敏感であるため、最先端の ASR システムであっても悪条件に直面するとパフォーマンスの低下を経験します。
直観的に、人間は言語知識に頼ってこの問題に対処します。曖昧な話された用語の意味は通常、文脈上の手がかりから推測され、それによって聴覚システムへの依存が軽減されます。
この観察に触発されて、ASR エラー修正に外部大規模言語モデル (LLM) を利用する最初のオープンソース ベンチマークを紹介します。このベンチマークでは、N ベスト復号仮説が真の転写予測に有益な要素を提供します。
このアプローチは、出力転写として 1 つの候補仮説のみを選択できる従来の言語モデル スコアリング戦略からのパラダイム シフトです。
提案されたベンチマークには、334,000 以上の N-best 仮説のペアと、一般的な音声ドメイン全体にわたる対応する正確な文字起こしを含む新しいデータセット HyPoradise (HP) が含まれています。
このデータセットを前提として、ラベル付き仮説と転写のペアの量を変化させた LLM に基づく 3 種類の誤り訂正技術を検証します。これにより、単語誤り率 (WER) が大幅に削減されます。
実験的証拠は、提案された手法が従来の再ランキングに基づく手法の上限を超えて画期的な成果を達成したことを示しています。
さらに驚くべきことに、適切なプロンプトとその生成機能を備えた LLM は、N ベスト リストに含まれていないトークンを修正することもできます。
私たちは、リリース済みの事前トレーニング済みモデルを使用して再現可能なパイプラインの結果を公開し、LLM を使用した ASR エラー修正の新しい評価パラダイムを提供します。

要約(オリジナル)

Advancements in deep neural networks have allowed automatic speech recognition (ASR) systems to attain human parity on several publicly available clean speech datasets. However, even state-of-the-art ASR systems experience performance degradation when confronted with adverse conditions, as a well-trained acoustic model is sensitive to variations in the speech domain, e.g., background noise. Intuitively, humans address this issue by relying on their linguistic knowledge: the meaning of ambiguous spoken terms is usually inferred from contextual cues thereby reducing the dependency on the auditory system. Inspired by this observation, we introduce the first open-source benchmark to utilize external large language models (LLMs) for ASR error correction, where N-best decoding hypotheses provide informative elements for true transcription prediction. This approach is a paradigm shift from the traditional language model rescoring strategy that can only select one candidate hypothesis as the output transcription. The proposed benchmark contains a novel dataset, HyPoradise (HP), encompassing more than 334,000 pairs of N-best hypotheses and corresponding accurate transcriptions across prevalent speech domains. Given this dataset, we examine three types of error correction techniques based on LLMs with varying amounts of labeled hypotheses-transcription pairs, which gains a significant word error rate (WER) reduction. Experimental evidence demonstrates the proposed technique achieves a breakthrough by surpassing the upper bound of traditional re-ranking based methods. More surprisingly, LLM with reasonable prompt and its generative capability can even correct those tokens that are missing in N-best list. We make our results publicly accessible for reproducible pipelines with released pre-trained models, thus providing a new evaluation paradigm for ASR error correction with LLMs.

arxiv情報

著者 Chen Chen,Yuchen Hu,Chao-Han Huck Yang,Sabato Macro Siniscalchi,Pin-Yu Chen,Eng Siong Chng
発行日 2023-09-27 14:44:10+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG, cs.SD, eess.AS パーマリンク