要約
我々は、もつれを解いた自己教師あり音声表現を活用したモジュール化されたテキスト音声合成モデルである ParrotTTS を紹介します。
単一の話者のトランスクリプトを使用して、複数話者のバリアントを効果的にトレーニングできます。
ParrotTTS は、低リソースのセットアップで新しい言語に適応し、自己監視型バックボーンのトレーニング中に見られなかった言語に一般化します。
さらに、バイリンガルまたは並列の例でトレーニングすることなく、ParrotTTS は話者固有の特性を維持しながら、言語を越えて音声を転送できます (たとえば、フランス語話者の声とアクセントを使用して流暢なヒンディー語の音声を合成します)。
単一言語および多言語のシナリオにおける広範な結果を示します。
ParrotTTS は、ペア データの一部のみを後者として使用する最先端の多言語 TTS モデルよりも優れたパフォーマンスを発揮します。
要約(オリジナル)
We present ParrotTTS, a modularized text-to-speech synthesis model leveraging disentangled self-supervised speech representations. It can train a multi-speaker variant effectively using transcripts from a single speaker. ParrotTTS adapts to a new language in low resource setup and generalizes to languages not seen while training the self-supervised backbone. Moreover, without training on bilingual or parallel examples, ParrotTTS can transfer voices across languages while preserving the speaker specific characteristics, e.g., synthesizing fluent Hindi speech using a French speaker’s voice and accent. We present extensive results in monolingual and multi-lingual scenarios. ParrotTTS outperforms state-of-the-art multi-lingual TTS models using only a fraction of paired data as latter.
arxiv情報
著者 | Neil Shah,Saiteja Kosgi,Vishal Tambrahalli,Neha Sahipjohn,Niranjan Pedanekar,Vineet Gandhi |
発行日 | 2023-12-17 00:06:16+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google