VoiceFlow: Efficient Text-to-Speech with Rectified Flow Matching

要約

テキスト読み上げにおける拡散モデルは、その強力な生成能力により一般的な選択肢となっていますが、拡散モデルからのサンプリングの本質的な複雑さにより効率が損なわれます。
あるいは、限られた数のサンプリングステップで高い合成品質を達成するために、整流されたフローマッチングアルゴリズムを利用する音響モデルであるVoiceFlowを提案します。
VoiceFlow は、メル スペクトログラムを生成するプロセスをテキスト入力を条件とした常微分方程式に定式化し、そのベクトル場を推定します。
次に、整流フロー技術によりサンプリング軌道が効果的に直線化され、効率的な合成が可能になります。
単一話者コーパスと複数話者コーパスの両方に対する主観的評価と客観的評価により、拡散対応物と比較して、VoiceFlow の合成品質が優れていることが示されました。
アブレーション研究により、VoiceFlow の整流フロー技術の有効性がさらに検証されました。

要約(オリジナル)

Although diffusion models in text-to-speech have become a popular choice due to their strong generative ability, the intrinsic complexity of sampling from diffusion models harms their efficiency. Alternatively, we propose VoiceFlow, an acoustic model that utilizes a rectified flow matching algorithm to achieve high synthesis quality with a limited number of sampling steps. VoiceFlow formulates the process of generating mel-spectrograms into an ordinary differential equation conditional on text inputs, whose vector field is then estimated. The rectified flow technique then effectively straightens its sampling trajectory for efficient synthesis. Subjective and objective evaluations on both single and multi-speaker corpora showed the superior synthesis quality of VoiceFlow compared to the diffusion counterpart. Ablation studies further verified the validity of the rectified flow technique in VoiceFlow.

arxiv情報

著者 Yiwei Guo,Chenpeng Du,Ziyang Ma,Xie Chen,Kai Yu
発行日 2024-01-16 07:38:39+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.HC, cs.SD, eess.AS パーマリンク