Investigating the Design Space of Diffusion Models for Speech Enhancement

要約

拡散モデルは、画像生成文献において優れたパフォーマンスを示している新しいクラスの生成モデルです。
その結果、研究では音声強調などの他のタスクに拡散モデルを適用することが試みられてきました。
拡散モデルを音声強調に適応させる一般的なアプローチは、クリーンな音声信号とノイズの多い音声信号の間の漸進的変換をモデル化することにあります。
しかし、画像生成の文献で以前に確立された一般的な拡散モデル フレームワークの 1 つは、システム入力へのそのような変換を考慮していないため、既存の拡散ベースの音声強調システムを前述の拡散モデル フレームワークと関連付けることができません。
これに対処するために、このフレームワークを拡張して、クリーンな音声信号とノイズの多い音声信号の間の漸進的な変換を考慮します。
これにより、画像生成に関する文献からの最近の開発を適用し、ニューラル ネットワークの事前調整、トレーニング損失の重み付け、確率微分方程式 (SDE) など、音声強調に関してほとんど研究されていない拡散モデルの設計側面を体系的に調査することができます。
逆のプロセスで注入される確率性の量。
以前の拡散ベースの音声強調システムのパフォーマンスは、クリーンな音声信号とノイズのある音声信号の間の漸進的変換に起因するものではないことを示します。
さらに、プリコンディショニング、トレーニング損失重み付け、SDE、およびサンプラーを適切に選択すると、より少ないサンプリング ステップを使用しながら、知覚メトリクスの点で一般的な拡散ベースの音声強調システムを上回るパフォーマンスが得られるため、計算コストが 4 分の 1 に削減されることを示します。

要約(オリジナル)

Diffusion models are a new class of generative models that have shown outstanding performance in image generation literature. As a consequence, studies have attempted to apply diffusion models to other tasks, such as speech enhancement. A popular approach in adapting diffusion models to speech enhancement consists in modelling a progressive transformation between the clean and noisy speech signals. However, one popular diffusion model framework previously laid in image generation literature did not account for such a transformation towards the system input, which prevents from relating the existing diffusion-based speech enhancement systems with the aforementioned diffusion model framework. To address this, we extend this framework to account for the progressive transformation between the clean and noisy speech signals. This allows us to apply recent developments from image generation literature, and to systematically investigate design aspects of diffusion models that remain largely unexplored for speech enhancement, such as the neural network preconditioning, the training loss weighting, the stochastic differential equation (SDE), or the amount of stochasticity injected in the reverse process. We show that the performance of previous diffusion-based speech enhancement systems cannot be attributed to the progressive transformation between the clean and noisy speech signals. Moreover, we show that a proper choice of preconditioning, training loss weighting, SDE and sampler allows to outperform a popular diffusion-based speech enhancement system in terms of perceptual metrics while using fewer sampling steps, thus reducing the computational cost by a factor of four.

arxiv情報

著者 Philippe Gonzalez,Zheng-Hua Tan,Jan Østergaard,Jesper Jensen,Tommy Sonne Alstrøm,Tobias May
発行日 2023-12-07 15:40:55+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, cs.SD, eess.AS パーマリンク