Hard-Synth: Synthesizing Diverse Hard Samples for ASR using Zero-Shot TTS and LLM

要約

テキスト読み上げ (TTS) モデルは、テキストのみのコーパスを使用して自動音声認識 (ASR) システムを強化するために広く採用されており、それによって実際の音声データのラベル付けのコストが削減されます。
既存の研究では主に、TTS モデルでサポートされる追加のテキスト データと事前定義された音声スタイルを利用しています。
この論文では、大規模言語モデル (LLM) と高度なゼロショット TTS を活用する新しい ASR データ拡張手法である Hard-Synth を提案します。
私たちのアプローチでは、追加のテキスト データに依存せずに、書き換えを通じて多様なドメイン内テキストを生成する LLM を採用しています。
事前定義された音声スタイルを使用するのではなく、ゼロショット TTS を使用したハード プロンプト選択方法を導入して、ASR モデルが認識するのが難しい音声スタイルを複製します。
実験では、Hard-Synth が Conformer モデルを大幅に強化し、LibriSpeech dev/test-other サブセットで 6.5\%/4.4\% の相対単語誤り率 (WER) 削減を達成することが実証されました。
さらに、ハード シンセはデータ効率が高く、ASR のバイアスを軽減できることを示します。

要約(オリジナル)

Text-to-speech (TTS) models have been widely adopted to enhance automatic speech recognition (ASR) systems using text-only corpora, thereby reducing the cost of labeling real speech data. Existing research primarily utilizes additional text data and predefined speech styles supported by TTS models. In this paper, we propose Hard-Synth, a novel ASR data augmentation method that leverages large language models (LLMs) and advanced zero-shot TTS. Our approach employs LLMs to generate diverse in-domain text through rewriting, without relying on additional text data. Rather than using predefined speech styles, we introduce a hard prompt selection method with zero-shot TTS to clone speech styles that the ASR model finds challenging to recognize. Experiments demonstrate that Hard-Synth significantly enhances the Conformer model, achieving relative word error rate (WER) reductions of 6.5\%/4.4\% on LibriSpeech dev/test-other subsets. Additionally, we show that Hard-Synth is data-efficient and capable of reducing bias in ASR.

arxiv情報

著者 Jiawei Yu,Yuang Li,Xiaosong Qiao,Huan Zhao,Xiaofeng Zhao,Wei Tang,Min Zhang,Hao Yang,Jinsong Su
発行日 2024-11-20 09:49:37+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.SD, eess.AS パーマリンク