StyleTTS: A Style-Based Generative Model for Natural and Diverse Text-to-Speech Synthesis

要約

Text-to-Speech (TTS) は、並列 TTS システムの急速な発展により、最近、高品質の音声合成において大きな進歩を遂げていますが、自然な韻律の変化、話し方、感情的なトーンを備えた音声を生成することは依然として困難です。
さらに、継続時間と音声は別々に生成されるため、並列 TTS モデルでは、自然な音声合成に重要な最適な単調な配置を見つけるという問題が依然として発生します。
ここでは、参照音声発話から自然な韻律を持つ多様な音声を合成できる並列 TTS のためのスタイルベースの生成モデル、StyleTTS を提案します。
新しい Transferable Monotonic Aligner (TMA) と持続時間不変のデータ拡張スキームを使用することで、私たちの方法は、音声の自然さと話者の類似性の主観的なテストにおいて、単一話者データセットと複数話者データセットの両方で最先端のモデルを大幅に上回ります。
話し方の自己教師あり学習を通じて、私たちのモデルは、これらのカテゴリを明示的にラベル付けすることなく、特定の参照音声と同じ韻律および感情的な調子で音声を合成できます。

要約(オリジナル)

Text-to-Speech (TTS) has recently seen great progress in synthesizing high-quality speech owing to the rapid development of parallel TTS systems, but producing speech with naturalistic prosodic variations, speaking styles and emotional tones remains challenging. Moreover, since duration and speech are generated separately, parallel TTS models still have problems finding the best monotonic alignments that are crucial for naturalistic speech synthesis. Here, we propose StyleTTS, a style-based generative model for parallel TTS that can synthesize diverse speech with natural prosody from a reference speech utterance. With novel Transferable Monotonic Aligner (TMA) and duration-invariant data augmentation schemes, our method significantly outperforms state-of-the-art models on both single and multi-speaker datasets in subjective tests of speech naturalness and speaker similarity. Through self-supervised learning of the speaking styles, our model can synthesize speech with the same prosodic and emotional tone as any given reference speech without the need for explicitly labeling these categories.

arxiv情報

著者 Yinghao Aaron Li,Cong Han,Nima Mesgarani
発行日 2023-11-20 04:31:13+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG, cs.SD, eess.AS パーマリンク