要約
タイトル: YourTTS: Zero-Shot Multi-Speaker TTS と Zero-Shot Voice Conversion を全員に向けて
要約:
– YourTTSは、多言語アプローチをゼロショット複数話者TTSのタスクにもたらします。
– VITSモデルを基盤とし、いくつかの新しい修正を加えることで、ゼロショット複数話者および多言語トレーニングに適用します。
– VCTKデータセットで、ゼロショット複数話者TTSのSOTA結果を達成し、ゼロショット音声変換ではSOTAと比較可能な結果を得ました。
– さらに、単一話者のデータセットであっても、ターゲット言語で有望な結果を得ることができます。これにより、資源が限られた言語のゼロショット複数話者TTSやゼロショット音声変換システムが可能になります。
– 最後に、1分未満の音声で YourTTS モデルを微調整して、訓練時とは異なる声や録音特性を持つ話者の合成が可能になります。
要約(オリジナル)
YourTTS brings the power of a multilingual approach to the task of zero-shot multi-speaker TTS. Our method builds upon the VITS model and adds several novel modifications for zero-shot multi-speaker and multilingual training. We achieved state-of-the-art (SOTA) results in zero-shot multi-speaker TTS and results comparable to SOTA in zero-shot voice conversion on the VCTK dataset. Additionally, our approach achieves promising results in a target language with a single-speaker dataset, opening possibilities for zero-shot multi-speaker TTS and zero-shot voice conversion systems in low-resource languages. Finally, it is possible to fine-tune the YourTTS model with less than 1 minute of speech and achieve state-of-the-art results in voice similarity and with reasonable quality. This is important to allow synthesis for speakers with a very different voice or recording characteristics from those seen during training.
arxiv情報
著者 | Edresson Casanova,Julian Weber,Christopher Shulby,Arnaldo Candido Junior,Eren Gölge,Moacir Antonelli Ponti |
発行日 | 2023-04-30 17:46:06+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, OpenAI