Investigating the Design Space of Diffusion Models for Speech Enhancement


しかし、画像生成の文献で以前に確立された一般的な拡散モデル フレームワークの 1 つは、システム入力へのそのような変換を考慮していないため、既存の拡散ベースの音声強調システムを前述の拡散モデル フレームワークと関連付けることができません。
これにより、画像生成に関する文献からの最近の開発を適用し、ニューラル ネットワークの事前調整、トレーニング損失の重み付け、確率微分方程式 (SDE) など、音声強調に関してほとんど研究されていない拡散モデルの設計側面を体系的に調査することができます。
さらに、プリコンディショニング、トレーニング損失重み付け、SDE、およびサンプラーを適切に選択すると、より少ないサンプリング ステップを使用しながら、知覚メトリクスの点で一般的な拡散ベースの音声強調システムを上回るパフォーマンスが得られるため、計算コストが 4 分の 1 に削減されることを示します。


Diffusion models are a new class of generative models that have shown outstanding performance in image generation literature. As a consequence, studies have attempted to apply diffusion models to other tasks, such as speech enhancement. A popular approach in adapting diffusion models to speech enhancement consists in modelling a progressive transformation between the clean and noisy speech signals. However, one popular diffusion model framework previously laid in image generation literature did not account for such a transformation towards the system input, which prevents from relating the existing diffusion-based speech enhancement systems with the aforementioned diffusion model framework. To address this, we extend this framework to account for the progressive transformation between the clean and noisy speech signals. This allows us to apply recent developments from image generation literature, and to systematically investigate design aspects of diffusion models that remain largely unexplored for speech enhancement, such as the neural network preconditioning, the training loss weighting, the stochastic differential equation (SDE), or the amount of stochasticity injected in the reverse process. We show that the performance of previous diffusion-based speech enhancement systems cannot be attributed to the progressive transformation between the clean and noisy speech signals. Moreover, we show that a proper choice of preconditioning, training loss weighting, SDE and sampler allows to outperform a popular diffusion-based speech enhancement system in terms of perceptual metrics while using fewer sampling steps, thus reducing the computational cost by a factor of four.


著者 Philippe Gonzalez,Zheng-Hua Tan,Jan Østergaard,Jesper Jensen,Tommy Sonne Alstrøm,Tobias May
発行日 2023-12-07 15:40:55+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス, Google

カテゴリー: cs.LG, cs.SD, eess.AS パーマリンク