PeriodGrad: Towards Pitch-Controllable Neural Vocoder Based on a Diffusion Probabilistic Model

要約

この論文では、補助調整信号として明示的な周期信号を組み込んだノイズ除去拡散確率モデル (DDPM) に基づくニューラル ボコーダを紹介します。
最近、DDPM ベースのニューラル ボコーダーは、高品質の波形を生成できる非自己回帰モデルとして注目を集めています。
DDPM に基づくニューラル ボコーダーには、単純な時間領域損失でトレーニングできるという利点があります。
歌声合成などの実際のアプリケーションでは、柔軟なピッチ制御を備えた高忠実度の音声波形を生成するニューラルボコーダーが求められています。
しかし、従来の DDPM ベースのニューラルボコーダーは、そのような条件下で音声波形を生成するのに苦労しています。
私たちが提案するモデルは、明示的な周期信号を組み込むことで音声波形の周期構造を正確に捉えることを目的としています。
実験結果は、私たちのモデルが従来の DDPM ベースのニューラル ボコーダーよりも音質を向上させ、より優れたピッチ制御を提供することを示しています。

要約(オリジナル)

This paper presents a neural vocoder based on a denoising diffusion probabilistic model (DDPM) incorporating explicit periodic signals as auxiliary conditioning signals. Recently, DDPM-based neural vocoders have gained prominence as non-autoregressive models that can generate high-quality waveforms. The neural vocoders based on DDPM have the advantage of training with a simple time-domain loss. In practical applications, such as singing voice synthesis, there is a demand for neural vocoders to generate high-fidelity speech waveforms with flexible pitch control. However, conventional DDPM-based neural vocoders struggle to generate speech waveforms under such conditions. Our proposed model aims to accurately capture the periodic structure of speech waveforms by incorporating explicit periodic signals. Experimental results show that our model improves sound quality and provides better pitch control than conventional DDPM-based neural vocoders.

arxiv情報

著者 Yukiya Hono,Kei Hashimoto,Yoshihiko Nankaku,Keiichi Tokuda
発行日 2024-02-22 16:47:15+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, cs.SD, eess.AS, eess.SP パーマリンク