DiTTo-TTS: Diffusion Transformers for Scalable Text-to-Speech without Domain-Specific Factors

要約

大規模な潜在的拡散モデル(LDMS)は、さまざまなモダリティのコンテンツ生成に優れていますが、テキストツースピーチ(TTS)の音素と期間への依存により、他のフィールドからのスケーラビリティとアクセスが制限されます。
最近の研究では、これらのドメイン固有の要因を除去する可能性が示されていますが、パフォーマンスは最適ではありません。
この作業では、LDMベースのTTSがドメイン固有の要因なしに最先端のパフォーマンスを達成できるかどうかを調査するために、拡散トランス(DIT)ベースのTTSモデルであるDitto-TTSを導入します。
厳密な分析と経験的探査を通じて、(1)最小限の変更でDITがu-netを上回ることがわかります。
音声潜在表現のアライメントは、さらに強化するための鍵です。
トレーニングデータを82k時間とモデルサイズを790mパラメーターにスケーリングすることにより、自然性、明瞭度、スピーカーの類似性における最先端のTTSモデルに優れたまたは同等のゼロショットパフォーマンスを達成します。
特定の要因。
音声サンプルはhttps://ditto-tts.github.ioで入手できます。

要約(オリジナル)

Large-scale latent diffusion models (LDMs) excel in content generation across various modalities, but their reliance on phonemes and durations in text-to-speech (TTS) limits scalability and access from other fields. While recent studies show potential in removing these domain-specific factors, performance remains suboptimal. In this work, we introduce DiTTo-TTS, a Diffusion Transformer (DiT)-based TTS model, to investigate whether LDM-based TTS can achieve state-of-the-art performance without domain-specific factors. Through rigorous analysis and empirical exploration, we find that (1) DiT with minimal modifications outperforms U-Net, (2) variable-length modeling with a speech length predictor significantly improves results over fixed-length approaches, and (3) conditions like semantic alignment in speech latent representations are key to further enhancement. By scaling our training data to 82K hours and the model size to 790M parameters, we achieve superior or comparable zero-shot performance to state-of-the-art TTS models in naturalness, intelligibility, and speaker similarity, all without relying on domain-specific factors. Speech samples are available at https://ditto-tts.github.io.

arxiv情報

著者 Keon Lee,Dong Won Kim,Jaehyeon Kim,Seungjun Chung,Jaewoong Cho
発行日 2025-02-17 17:34:45+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG, cs.SD, eess.AS パーマリンク