要約
参照音声を使用した表現力豊かなテキスト読み上げ (TTS) は、自然な音声を合成するために広く研究されてきましたが、適切に表現されたスタイルを取得し、モデルの一般化能力を向上させるには限界があります。
この研究では、強化されたスタイル表現を備えた参照ベースの音声合成用に設計された音響モデルである拡散ベースの表現型 TTS (DEX-TTS) を紹介します。
一般的な拡散 TTS フレームワークに基づいた DEX-TTS には、参照音声から抽出されたスタイルを処理するためのエンコーダとアダプタが含まれています。
主な革新には、効果的なスタイル抽出のためのスタイルを時不変カテゴリと時変カテゴリに区別することと、高い汎化能力を備えたエンコーダとアダプタの設計が含まれます。
さらに、TTS 用の DiT ベースの拡散ネットワークを改善するために、オーバーラップする patchify および畳み込み周波数パッチ埋め込み戦略を導入します。
DEX-TTS は、事前トレーニング戦略に依存せずに、英語の複数話者および感情的な複数話者のデータセットにおける客観的および主観的な評価の点で優れたパフォーマンスをもたらします。
最後に、単一話者のデータセットでの一般的な TTS の比較結果により、強化された拡散バックボーンの有効性が検証されます。
デモはここから入手できます。
要約(オリジナル)
Expressive Text-to-Speech (TTS) using reference speech has been studied extensively to synthesize natural speech, but there are limitations to obtaining well-represented styles and improving model generalization ability. In this study, we present Diffusion-based EXpressive TTS (DEX-TTS), an acoustic model designed for reference-based speech synthesis with enhanced style representations. Based on a general diffusion TTS framework, DEX-TTS includes encoders and adapters to handle styles extracted from reference speech. Key innovations contain the differentiation of styles into time-invariant and time-variant categories for effective style extraction, as well as the design of encoders and adapters with high generalization ability. In addition, we introduce overlapping patchify and convolution-frequency patch embedding strategies to improve DiT-based diffusion networks for TTS. DEX-TTS yields outstanding performance in terms of objective and subjective evaluation in English multi-speaker and emotional multi-speaker datasets, without relying on pre-training strategies. Lastly, the comparison results for the general TTS on a single-speaker dataset verify the effectiveness of our enhanced diffusion backbone. Demos are available here.
arxiv情報
著者 | Hyun Joon Park,Jin Sob Kim,Wooseok Shin,Sung Won Han |
発行日 | 2024-06-27 12:39:55+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google