要約
Text-to-Speech (TTS) 合成の最近の進歩により、広範な Web データを使用してトレーニングされた大規模なモデルが非常に自然な出力を生成することがわかりました。
ただし、LibriVox や YouTube などのプラットフォームには手動で字幕を付けた高品質のデータが不足しているため、インドの言語ではそのようなデータが不足しています。
このギャップに対処するために、低品質の環境で収集された自然な会話を含む既存の大規模な ASR データセットを強化して、高品質の TTS トレーニング データを生成します。
当社のパイプラインは、英語でトレーニングされインドの言語に適用されたノイズ除去および音声強調モデルの言語を超えた一般化を活用しています。
その結果、ASR データセットから派生した最大の多言語インド TTS データセットである IndicVoices-R (IV-R) が作成され、インドの 22 言語にわたる 10,496 人の話者による 1,704 時間の高品質な音声が収録されました。
IV-R は、LJSpeech、LibriTTS、IndicTTS などのゴールドスタンダード TTS データセットの品質と一致します。
また、インド人の声に対する TTS モデルのゼロショット、少数ショット、および多数ショットの話者汎化機能を初めて評価し、年齢、性別、スタイルの多様性を確保する IV-R ベンチマークも紹介します。
高品質の IndicTTS と IV-R データセットを組み合わせたデータセットで英語の事前トレーニング済みモデルを微調整すると、IndicTTS データセットのみで微調整した場合と比較して、ゼロショット話者の汎化が向上することを示します。
さらに、私たちの評価では、以前のデータセットでトレーニングされた TTS モデルにおけるインド人の音声のゼロショット一般化が限定的であることが明らかになりました。これは、言語族全体の多様な話者セットを含むデータに基づいてモデルを微調整することで改善されます。
すべてのデータとコードをオープンソース化し、インドの 22 の公用語すべてに対応する最初の TTS モデルをリリースしました。
要約(オリジナル)
Recent advancements in text-to-speech (TTS) synthesis show that large-scale models trained with extensive web data produce highly natural-sounding output. However, such data is scarce for Indian languages due to the lack of high-quality, manually subtitled data on platforms like LibriVox or YouTube. To address this gap, we enhance existing large-scale ASR datasets containing natural conversations collected in low-quality environments to generate high-quality TTS training data. Our pipeline leverages the cross-lingual generalization of denoising and speech enhancement models trained on English and applied to Indian languages. This results in IndicVoices-R (IV-R), the largest multilingual Indian TTS dataset derived from an ASR dataset, with 1,704 hours of high-quality speech from 10,496 speakers across 22 Indian languages. IV-R matches the quality of gold-standard TTS datasets like LJSpeech, LibriTTS, and IndicTTS. We also introduce the IV-R Benchmark, the first to assess zero-shot, few-shot, and many-shot speaker generalization capabilities of TTS models on Indian voices, ensuring diversity in age, gender, and style. We demonstrate that fine-tuning an English pre-trained model on a combined dataset of high-quality IndicTTS and our IV-R dataset results in better zero-shot speaker generalization compared to fine-tuning on the IndicTTS dataset alone. Further, our evaluation reveals limited zero-shot generalization for Indian voices in TTS models trained on prior datasets, which we improve by fine-tuning the model on our data containing diverse set of speakers across language families. We open-source all data and code, releasing the first TTS model for all 22 official Indian languages.
arxiv情報
著者 | Ashwin Sankar,Srija Anand,Praveen Srinivasa Varadhan,Sherry Thomas,Mehak Singal,Shridhar Kumar,Deovrat Mehendale,Aditi Krishana,Giri Raju,Mitesh Khapra |
発行日 | 2024-09-09 06:28:47+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google