Reducing the Prior Mismatch of Stochastic Differential Equations for Diffusion-based Speech Enhancement

要約

最近、スコアベースの生成モデルが音声強調のタスクにうまく採用されています。
確率微分方程式を使用して反復フォワード プロセスをモデル化し、各ステップで環境ノイズとホワイト ガウス ノイズをクリーンな音声信号に追加します。
極限では、順方向プロセスの平均はノイズの多い混合物で終了しますが、実際には、より早く停止するため、ノイズの多い混合物の近似値でのみ停止します。
これにより、フォワード プロセスの終了分布と、推論時にリバース プロセスを解くために使用される事前分布との間に不一致が生じます。
この論文では、この不一致に対処します。
この目的のために、ブラウンブリッジに基づくフォワードプロセスを提案し、そのようなプロセスが以前の拡散プロセスと比較してミスマッチの減少につながることを示します。
さらに重要なことは、私たちのアプローチは、反復ステップの半分だけで、調整するハイパーパラメーターが 1 つ少ないベースライン プロセスよりも客観的なメトリクスが改善されることを示しています。

要約(オリジナル)

Recently, score-based generative models have been successfully employed for the task of speech enhancement. A stochastic differential equation is used to model the iterative forward process, where at each step environmental noise and white Gaussian noise are added to the clean speech signal. While in limit the mean of the forward process ends at the noisy mixture, in practice it stops earlier and thus only at an approximation of the noisy mixture. This results in a discrepancy between the terminating distribution of the forward process and the prior used for solving the reverse process at inference. In this paper, we address this discrepancy. To this end, we propose a forward process based on a Brownian bridge and show that such a process leads to a reduction of the mismatch compared to previous diffusion processes. More importantly, we show that our approach improves in objective metrics over the baseline process with only half of the iteration steps and having one hyperparameter less to tune.

arxiv情報

著者 Bunlong Lay,Simon Welker,Julius Richter,Timo Gerkmann
発行日 2023-02-28 16:45:42+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, cs.SD, eess.AS パーマリンク