Metric-oriented Speech Enhancement using Diffusion Probabilistic Model


ディープ ニューラル ネットワーク ベースの音声強調技術は、ペアのトレーニング データによって監視されるノイズからクリーンへの変換の学習に重点を置いています。
ただし、タスク固有の評価指標 (PESQ など) は通常、微分不可能であり、トレーニング基準で直接構築することはできません。
それを軽減するために、拡散確率モデルの最近の進歩を活用し、メトリック指向のトレーニング戦略をその逆プロセスに統合する、メトリック指向の音声強調方法 (MOSE) を提案します。
実験結果は、MOSE がメトリック指向のトレーニングから明らかに恩恵を受け、すべての評価メトリックに関して生成ベースラインを上回っていることを示しています。


Deep neural network based speech enhancement technique focuses on learning a noisy-to-clean transformation supervised by paired training data. However, the task-specific evaluation metric (e.g., PESQ) is usually non-differentiable and can not be directly constructed in the training criteria. This mismatch between the training objective and evaluation metric likely results in sub-optimal performance. To alleviate it, we propose a metric-oriented speech enhancement method (MOSE), which leverages the recent advances in the diffusion probabilistic model and integrates a metric-oriented training strategy into its reverse process. Specifically, we design an actor-critic based framework that considers the evaluation metric as a posterior reward, thus guiding the reverse process to the metric-increasing direction. The experimental results demonstrate that MOSE obviously benefits from metric-oriented training and surpasses the generative baselines in terms of all evaluation metrics.


著者 Chen Chen,Yuchen Hu,Weiwei Weng,Eng Siong Chng
発行日 2023-02-23 13:12:35+00:00
