要約
本稿では、拡散モデルによる条件付き生成に基づいた、情報に基づいた単一チャネル残響除去法を紹介します。
部屋のインパルス応答の知識に基づいて、クリーンな音声事前表現を表すニューラル ネットワークと組み合わせた測定一貫性基準を使用した逆拡散によって、無響音発話が生成されます。
提案されたアプローチは、最先端の情報に基づいた単一チャネル残響除去方法と比較して、特に非定常ノイズに対して、測定ノイズに対して大幅に堅牢です。
さらに、拡散モデルを使用した他のブラインド残響除去方法と比較し、長い残響時間に対して提案されたアプローチの優位性を示します。
室内のインパルス応答と無響音声の共同推定を可能にするブラインド残響除去の拡張機能を導入することで、提示されたアルゴリズムを動機付けています。
オーディオ サンプルとコードはオンライン (https://uhh.de/inf-sp-derev-dps) で見つけることができます。
要約(オリジナル)
We present in this paper an informed single-channel dereverberation method based on conditional generation with diffusion models. With knowledge of the room impulse response, the anechoic utterance is generated via reverse diffusion using a measurement consistency criterion coupled with a neural network that represents the clean speech prior. The proposed approach is largely more robust to measurement noise compared to a state-of-the-art informed single-channel dereverberation method, especially for non-stationary noise. Furthermore, we compare to other blind dereverberation methods using diffusion models and show superiority of the proposed approach for large reverberation times. We motivate the presented algorithm by introducing an extension for blind dereverberation allowing joint estimation of the room impulse response and anechoic speech. Audio samples and code can be found online (https://uhh.de/inf-sp-derev-dps).
arxiv情報
著者 | Jean-Marie Lemercier,Simon Welker,Timo Gerkmann |
発行日 | 2023-06-21 14:14:05+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google