StoRM: A Diffusion-based Stochastic Regeneration Model for Speech Enhancement and Dereverberation

要約

拡散モデルは、音声強調に対する予測アプローチと生成アプローチの間のパフォーマンス ギャップを埋める優れた能力を示しています。
非加算的な破損タイプや不一致の条件で評価された場合、それらの予測が対応する予測よりも優れたパフォーマンスを発揮する可能性さえあることを示しました。
ただし、拡散モデルでは、主に逆拡散ステップごとにニューラル ネットワークを実行する必要があるため、計算負荷が高くなりますが、予測アプローチでは 1 パスしか必要ありません。
拡散モデルは生成的なアプローチであるため、悪条件下では発声や呼吸によるアーティファクトも生成される可能性があります。
比較すると、このような困難なシナリオでは、予測モデルは通常、そのようなアーティファクトを生成しませんが、代わりにターゲット音声を歪める傾向があり、それによって音声品質が低下します。
この研究では、予測モデルによって与えられる推定値がさらなる普及のためのガイドとして提供される確率的再生アプローチを紹介します。
提案されたアプローチでは、予測モデルを使用して発声と呼吸のアーティファクトを除去しながら、悪条件下でも拡散モデルのおかげで非常に高品質のサンプルを生成できることを示します。
さらに、このアプローチにより、品質を犠牲にすることなく、より少ない拡散ステップでより軽量なサンプリング スキームを使用できるため、計算負荷が 1 桁軽減されることを示します。
ソース コードと音声のサンプルはオンラインで入手できます (https://uhh.de/inf-sp-storm)。

要約(オリジナル)

Diffusion models have shown a great ability at bridging the performance gap between predictive and generative approaches for speech enhancement. We have shown that they may even outperform their predictive counterparts for non-additive corruption types or when they are evaluated on mismatched conditions. However, diffusion models suffer from a high computational burden, mainly as they require to run a neural network for each reverse diffusion step, whereas predictive approaches only require one pass. As diffusion models are generative approaches they may also produce vocalizing and breathing artifacts in adverse conditions. In comparison, in such difficult scenarios, predictive models typically do not produce such artifacts but tend to distort the target speech instead, thereby degrading the speech quality. In this work, we present a stochastic regeneration approach where an estimate given by a predictive model is provided as a guide for further diffusion. We show that the proposed approach uses the predictive model to remove the vocalizing and breathing artifacts while producing very high quality samples thanks to the diffusion model, even in adverse conditions. We further show that this approach enables to use lighter sampling schemes with fewer diffusion steps without sacrificing quality, thus lifting the computational burden by an order of magnitude. Source code and audio examples are available online (https://uhh.de/inf-sp-storm).

arxiv情報

著者 Jean-Marie Lemercier,Julius Richter,Simon Welker,Timo Gerkmann
発行日 2024-03-12 15:31:01+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, cs.SD, eess.AS パーマリンク