Towards Building Text-To-Speech Systems for the Next Billion Users

要約

ディープ ラーニング ベースのテキスト読み上げ (TTS) システムは、モデル アーキテクチャ、トレーニング方法論、および話者や言語全体での一般化の進歩により、急速に進化しています。
ただし、これらの進歩は、インド語の音声合成について十分に調査されていません。
このような調査は、インドの言語の数と多様性、リソースの可用性が比較的低く、テストされていないニューラル TTS のさまざまな進歩を考慮すると、計算コストが高くなります。
この論文では、音響モデル、ボコーダー、補助損失関数、トレーニング スケジュール、およびドラヴィダ語とインド アーリア語の話者と言語の多様性の選択を評価します。
これに基づいて、FastPitch と HiFi-GAN V1 を備えた単一言語モデルを特定し、最高のパフォーマンスを発揮するために男性と女性のスピーカーで共同トレーニングを行いました。
このセットアップでは、13 の言語の TTS モデルをトレーニングおよび評価し、平均オピニオン スコアで測定されるように、すべての言語で既存のモデルを大幅に改善するモデルを見つけました。
Bhashini プラットフォームですべてのモデルをオープンソース化しています。

要約(オリジナル)

Deep learning based text-to-speech (TTS) systems have been evolving rapidly with advances in model architectures, training methodologies, and generalization across speakers and languages. However, these advances have not been thoroughly investigated for Indian language speech synthesis. Such investigation is computationally expensive given the number and diversity of Indian languages, relatively lower resource availability, and the diverse set of advances in neural TTS that remain untested. In this paper, we evaluate the choice of acoustic models, vocoders, supplementary loss functions, training schedules, and speaker and language diversity for Dravidian and Indo-Aryan languages. Based on this, we identify monolingual models with FastPitch and HiFi-GAN V1, trained jointly on male and female speakers to perform the best. With this setup, we train and evaluate TTS models for 13 languages and find our models to significantly improve upon existing models in all languages as measured by mean opinion scores. We open-source all models on the Bhashini platform.

arxiv情報

著者 Gokul Karthik Kumar,Praveen S V,Pratyush Kumar,Mitesh M. Khapra,Karthik Nandakumar
発行日 2023-02-17 08:09:02+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG, cs.SD, eess.AS パーマリンク