DiffAR: Denoising Diffusion Autoregressive Model for Raw Speech Waveform Generation

要約

最近、拡散モデルが高品質の音声生成に関連していることが示されています。
ほとんどの研究はスペクトログラムの生成に焦点を当てているため、スペクトログラムを波形 (つまり、ボコーダー) に変換するための後続のモデルがさらに必要になります。
この研究では、生の音声波形を生成するための拡散確率的エンドツーエンド モデルを提案しています。
提案されたモデルは自己回帰的であり、重複するフレームを連続的に生成します。各フレームは、以前に生成されたフレームの一部に基づいて条件付けされます。
したがって、私たちのモデルは、高忠実度の合成と時間的コヒーレンスを維持しながら、無制限の音声時間を効果的に合成できます。
無条件音声生成と条件付き音声生成の提案モデルを実装しました。後者は音素、振幅、ピッチ値の入力シーケンスによって駆動できます。
波形を直接操作することには、経験的にいくつかの利点があります。
具体的には、ボーカルフライなどの局所的な音響動作を作成でき、波形全体がより自然に聞こえるようになります。
さらに、提案された拡散モデルは確率論的であり、決定論的ではありません。
したがって、各推論はわずかに異なる波形変化を生成し、豊富な有効な実現を可能にします。
実験では、提案されたモデルが他の最先端のニューラル音声生成システムと比較して優れた品質の音声を生成することが示されています。

要約(オリジナル)

Diffusion models have recently been shown to be relevant for high-quality speech generation. Most work has been focused on generating spectrograms, and as such, they further require a subsequent model to convert the spectrogram to a waveform (i.e., a vocoder). This work proposes a diffusion probabilistic end-to-end model for generating a raw speech waveform. The proposed model is autoregressive, generating overlapping frames sequentially, where each frame is conditioned on a portion of the previously generated one. Hence, our model can effectively synthesize an unlimited speech duration while preserving high-fidelity synthesis and temporal coherence. We implemented the proposed model for unconditional and conditional speech generation, where the latter can be driven by an input sequence of phonemes, amplitudes, and pitch values. Working on the waveform directly has some empirical advantages. Specifically, it allows the creation of local acoustic behaviors, like vocal fry, which makes the overall waveform sounds more natural. Furthermore, the proposed diffusion model is stochastic and not deterministic; therefore, each inference generates a slightly different waveform variation, enabling abundance of valid realizations. Experiments show that the proposed model generates speech with superior quality compared with other state-of-the-art neural speech generation systems.

arxiv情報

著者 Roi Benita,Michael Elad,Joseph Keshet
発行日 2023-11-06 18:55:18+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.SD, eess.AS パーマリンク