Unsupervised speech enhancement with deep dynamical generative speech and noise models

要約

この研究は、クリーン音声モデルとして動的変分オートエンコーダ (DVAE) を使用し、ノイズ モデルとして非負行列因数分解 (NMF) を使用する教師なし音声強調に関する以前の研究に基づいています。
我々は、DVAE 潜在変数、ノイズのある観測値、またはその両方に応じて、NMF ノイズ モデルを深層動的生成モデル (DDGM) に置き換えることを提案します。
この DDGM は、ノイズに依存しない、ノイズに依存する、およびノイズに依存するトレーニング後のノイズ適応という 3 つの構成でトレーニングできます。
実験結果は、提案された方法が最先端の教師なし音声強調方法と比較して競争力のあるパフォーマンスを達成し、ノイズ依存のトレーニング構成によりはるかに時間効率の高い推論プロセスが得られることを示しています。

要約(オリジナル)

This work builds on a previous work on unsupervised speech enhancement using a dynamical variational autoencoder (DVAE) as the clean speech model and non-negative matrix factorization (NMF) as the noise model. We propose to replace the NMF noise model with a deep dynamical generative model (DDGM) depending either on the DVAE latent variables, or on the noisy observations, or on both. This DDGM can be trained in three configurations: noise-agnostic, noise-dependent and noise adaptation after noise-dependent training. Experimental results show that the proposed method achieves competitive performance compared to state-of-the-art unsupervised speech enhancement methods, while the noise-dependent training configuration yields a much more time-efficient inference process.

arxiv情報

著者 Xiaoyu Lin,Simon Leglaive,Laurent Girin,Xavier Alameda-Pineda
発行日 2023-06-13 14:52:35+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, cs.SD, eess.AS パーマリンク