On the Problem of Text-To-Speech Model Selection for Synthetic Data Generation in Automatic Speech Recognition

要約

ニューラル テキスト読み上げ (TTS) システムの急速な発展により、自動音声認識 (ASR) や音声言語翻訳 (SLT) などの自然言語処理の他の分野での使用が可能になりました。
さまざまな TTS アーキテクチャとその拡張機能が多数あるため、合成データの作成にどの TTS システムを使用するかを選択するのは簡単な作業ではありません。
合成データ生成の範囲で 5 つの異なる TTS デコーダ アーキテクチャの比較を使用して、CTC ベースの音声認識トレーニングへの影響を示します。
認識結果を NISQA MOS や明瞭度などの計算可能な指標と比較したところ、ASR パフォーマンスと明確な関係がないことがわかりました。
また、データ生成に関しては、自己回帰復号の方が非自己回帰復号よりも優れたパフォーマンスを発揮することを観察し、TTS 一般化機能を定量化するアプローチを提案します。

要約(オリジナル)

The rapid development of neural text-to-speech (TTS) systems enabled its usage in other areas of natural language processing such as automatic speech recognition (ASR) or spoken language translation (SLT). Due to the large number of different TTS architectures and their extensions, selecting which TTS systems to use for synthetic data creation is not an easy task. We use the comparison of five different TTS decoder architectures in the scope of synthetic data generation to show the impact on CTC-based speech recognition training. We compare the recognition results to computable metrics like NISQA MOS and intelligibility, finding that there are no clear relations to the ASR performance. We also observe that for data generation auto-regressive decoding performs better than non-autoregressive decoding, and propose an approach to quantify TTS generalization capabilities.

arxiv情報

著者 Nick Rossenbach,Ralf Schlüter,Sakriani Sakti
発行日 2024-07-31 09:37:27+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG, cs.SD, eess.AS パーマリンク