CoMoSpeech: One-Step Speech and Singing Voice Synthesis via Consistency Model

要約

ノイズ除去拡散確率モデル (DDPM) は、音声合成において有望なパフォーマンスを示しています。
ただし、高いサンプル品質を達成するには多数の反復ステップが必要であり、推論速度が制限されます。
サンプリング速度を向上させながらサンプルの品質を維持することは、困難な課題となっています。
この論文では、高音質を達成しながら単一の拡散サンプリングステップを通じて音声合成を達成する、「一貫性モデルベースの音声」合成手法である CoMoSpeech を提案します。
一貫性制約は、適切に設計された拡散ベースの教師モデルから一貫性モデルを抽出するために適用され、最終的には、抽出された CoMoSpeech で優れたパフォーマンスをもたらします。
私たちの実験によると、単一のサンプリング ステップでオーディオ録音を生成することにより、CoMoSpeech は単一の NVIDIA A100 GPU でリアルタイムの 150 倍以上の推論速度を達成し、これは FastSpeech2 に匹敵し、拡散サンプリング ベースの音声合成を真に実現できることがわかりました。
実用的。
一方、テキスト読み上げおよび歌声合成に関する客観的および主観的な評価では、提案された教師モデルが最高の音質をもたらし、ワンステップ サンプリング ベースの CoMoSpeech が他の従来のモデルよりも優れたまたは同等の音質で最高の推論速度を達成することが示されています。
マルチステップ拡散モデルのベースライン。
音声サンプルは https://comospeech.github.io/ で入手できます。

要約(オリジナル)

Denoising diffusion probabilistic models (DDPMs) have shown promising performance for speech synthesis. However, a large number of iterative steps are required to achieve high sample quality, which restricts the inference speed. Maintaining sample quality while increasing sampling speed has become a challenging task. In this paper, we propose a ‘Co’nsistency ‘Mo’del-based ‘Speech’ synthesis method, CoMoSpeech, which achieve speech synthesis through a single diffusion sampling step while achieving high audio quality. The consistency constraint is applied to distill a consistency model from a well-designed diffusion-based teacher model, which ultimately yields superior performances in the distilled CoMoSpeech. Our experiments show that by generating audio recordings by a single sampling step, the CoMoSpeech achieves an inference speed more than 150 times faster than real-time on a single NVIDIA A100 GPU, which is comparable to FastSpeech2, making diffusion-sampling based speech synthesis truly practical. Meanwhile, objective and subjective evaluations on text-to-speech and singing voice synthesis show that the proposed teacher models yield the best audio quality, and the one-step sampling based CoMoSpeech achieves the best inference speed with better or comparable audio quality to other conventional multi-step diffusion model baselines. Audio samples are available at https://comospeech.github.io/.

arxiv情報

著者 Zhen Ye,Wei Xue,Xu Tan,Jie Chen,Qifeng Liu,Yike Guo
発行日 2023-09-21 12:32:22+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG, cs.MM, cs.SD, eess.AS パーマリンク