Diffiner: A Versatile Diffusion-based Generative Refiner for Speech Enhancement

要約

ディープ ニューラル ネットワーク (DNN) ベースの音声強調 (SE) 手法は、以前の非 DNN ベースのものよりも優れていますが、生成された出力の知覚品質が低下することがよくあります。
この問題に取り組むために、SE 法によって前処理された知覚音声品質の向上を目的とした、DNN ベースの生成リファイナー Diffiner を導入します。
クリーンな音声のみからなるデータセットを利用して、拡散ベースの生成モデルをトレーニングします。
次に、リファイナーは、ノイズ除去拡散復元によって新たに生成されたきれいな部分と、前の SE 手法によって発生した劣化および歪みのある部分を効果的に混合し、洗練された音声をもたらします。
洗練された音声のセットでトレーニングされたリファイナーは、各 SE モジュールに特化した追加のトレーニングなしで、さまざまな SE メソッドに適用できます。
したがって、当社のリファイナーは、さまざまな用途に適した後処理モジュールとして機能します。
SE メソッドに準拠しており、モジュール性の点で高い可能性を秘めています。
実験結果は、使用された以前のSE方法に関係なく、私たちの方法が知覚音声品質を改善したことを示しています。

要約(オリジナル)

Although deep neural network (DNN)-based speech enhancement (SE) methods outperform the previous non-DNN-based ones, they often degrade the perceptual quality of generated outputs. To tackle this problem, we introduce a DNN-based generative refiner, Diffiner, aiming to improve perceptual speech quality pre-processed by an SE method. We train a diffusion-based generative model by utilizing a dataset consisting of clean speech only. Then, our refiner effectively mixes clean parts newly generated via denoising diffusion restoration into the degraded and distorted parts caused by a preceding SE method, resulting in refined speech. Once our refiner is trained on a set of clean speech, it can be applied to various SE methods without additional training specialized for each SE module. Therefore, our refiner can be a versatile post-processing module w.r.t. SE methods and has high potential in terms of modularity. Experimental results show that our method improved perceptual speech quality regardless of the preceding SE methods used.

arxiv情報

著者 Ryosuke Sawata,Naoki Murata,Yuhta Takida,Toshimitsu Uesaka,Takashi Shibuya,Shusuke Takahashi,Yuki Mitsufuji
発行日 2023-08-30 10:18:25+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, cs.SD, eess.AS パーマリンク