Diffusion Gaussian Mixture Audio Denoise

要約

最近の拡散モデルは、オーディオのノイズ除去タスクにおいて有望なパフォーマンスを達成しています。
逆プロセスのユニークな特性により、クリーンな信号を復元できます。
ただし、現実世界のノイズの分布は単一のガウス分布に従わず、さらには不明です。
ガウス ノイズ条件のサンプリングにより、アプリケーション シナリオが制限されます。
これらの課題を克服するために、拡散モデルとガウス混合モデルに基づくノイズ除去モデルである DiffGMM モデルを提案します。
逆のプロセスを使用して、混合ガウス モデルのパラメーターを推定します。
ノイズの多いオーディオ信号が与えられた場合、まず 1D-U-Net を適用して特徴を抽出し、線形層をトレーニングしてガウス混合モデルのパラメーターを推定し、実際のノイズ分布を近似します。
ノイズの多い信号は推定されたノイズから継続的に減算され、クリーンなオーディオ信号が出力されます。
広範な実験結果により、提案された DiffGMM モデルが最先端のパフォーマンスを達成することが実証されています。

要約(オリジナル)

Recent diffusion models have achieved promising performances in audio-denoising tasks. The unique property of the reverse process could recover clean signals. However, the distribution of real-world noises does not comply with a single Gaussian distribution and is even unknown. The sampling of Gaussian noise conditions limits its application scenarios. To overcome these challenges, we propose a DiffGMM model, a denoising model based on the diffusion and Gaussian mixture models. We employ the reverse process to estimate parameters for the Gaussian mixture model. Given a noisy audio signal, we first apply a 1D-U-Net to extract features and train linear layers to estimate parameters for the Gaussian mixture model, and we approximate the real noise distributions. The noisy signal is continuously subtracted from the estimated noise to output clean audio signals. Extensive experimental results demonstrate that the proposed DiffGMM model achieves state-of-the-art performance.

arxiv情報

著者 Pu Wang,Junhui Li,Jialu Li,Liangdong Guo,Youshan Zhang
発行日 2024-06-13 14:18:10+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.SD, eess.AS パーマリンク