CoMoSpeech: One-Step Speech and Singing Voice Synthesis via Consistency Model

要約

デノイジング拡散確率モデル(DDPM)は、音声合成において有望な性能を示している。しかし、高いサンプル品質を達成するためには、多くの反復ステップが必要であり、推論速度が制限される。サンプリング速度を上げながらサンプル品質を維持することは、困難な課題となっている。本論文では、高音質を実現しつつ、1回の拡散サンプリングステップで音声合成を実現する、「一貫性」「モデル」ベースの「音声」合成法、CoMoSpeechを提案します。整合性制約を適用することで、適切に設計された拡散ベースの教師モデルから整合性モデルを抽出し、最終的に抽出されたCoMoSpeechに優れた性能をもたらす。実験によると、1回のサンプリングステップで音声記録を生成することで、CoMoSpeechはNVIDIA A100 GPU1台でFastSpeech2に匹敵するリアルタイムより150倍以上速い推論速度を達成し、拡散サンプリングベースの音声合成を真に実用化する。一方、音声合成と歌声合成の客観的・主観的評価では、提案した教師モデルが最高の音質をもたらし、1ステップサンプリングに基づくCoMoSpeechは、他の従来のマルチステップ拡散モデルのベースラインよりも良好または同等の音質で最高の推論速度を達成することを示しました。音声サンプルは https://comospeech.github.io/ でご覧いただけます。

要約(オリジナル)

Denoising diffusion probabilistic models (DDPMs) have shown promising performance for speech synthesis. However, a large number of iterative steps are required to achieve high sample quality, which restricts the inference speed. Maintaining sample quality while increasing sampling speed has become a challenging task. In this paper, we propose a ‘Co’nsistency ‘Mo’del-based ‘Speech’ synthesis method, CoMoSpeech, which achieve speech synthesis through a single diffusion sampling step while achieving high audio quality. The consistency constraint is applied to distill a consistency model from a well-designed diffusion-based teacher model, which ultimately yields superior performances in the distilled CoMoSpeech. Our experiments show that by generating audio recordings by a single sampling step, the CoMoSpeech achieves an inference speed more than 150 times faster than real-time on a single NVIDIA A100 GPU, which is comparable to FastSpeech2, making diffusion-sampling based speech synthesis truly practical. Meanwhile, objective and subjective evaluations on text-to-speech and singing voice synthesis show that the proposed teacher models yield the best audio quality, and the one-step sampling based CoMoSpeech achieves the best inference speed with better or comparable audio quality to other conventional multi-step diffusion model baselines. Audio samples are available at https://comospeech.github.io/.

arxiv情報

著者 Zhen Ye,Wei Xue,Xu Tan,Jie Chen,Qifeng Liu,Yike Guo
発行日 2023-05-11 15:51:46+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.CL, cs.LG, cs.MM, cs.SD, eess.AS パーマリンク