Metric-oriented Speech Enhancement using Diffusion Probabilistic Model

要約

ディープ ニューラル ネットワーク ベースの音声強調技術は、ペアのトレーニング データによって監視されるノイズからクリーンへの変換の学習に重点を置いています。
ただし、タスク固有の評価指標 (PESQ など) は通常、微分不可能であり、トレーニング基準で直接構築することはできません。
トレーニングの目的と評価指標の間のこの不一致により、最適なパフォーマンスが得られない可能性があります。
それを軽減するために、拡散確率モデルの最近の進歩を活用し、メトリック指向のトレーニング戦略をその逆プロセスに統合する、メトリック指向の音声強調方法 (MOSE) を提案します。
具体的には、評価メトリックを事後報酬と見なす俳優批評家ベースのフレームワークを設計し、逆のプロセスをメトリック増加方向に導きます。
実験結果は、MOSE がメトリック指向のトレーニングから明らかに恩恵を受け、すべての評価メトリックに関して生成ベースラインを上回っていることを示しています。

要約(オリジナル)

Deep neural network based speech enhancement technique focuses on learning a noisy-to-clean transformation supervised by paired training data. However, the task-specific evaluation metric (e.g., PESQ) is usually non-differentiable and can not be directly constructed in the training criteria. This mismatch between the training objective and evaluation metric likely results in sub-optimal performance. To alleviate it, we propose a metric-oriented speech enhancement method (MOSE), which leverages the recent advances in the diffusion probabilistic model and integrates a metric-oriented training strategy into its reverse process. Specifically, we design an actor-critic based framework that considers the evaluation metric as a posterior reward, thus guiding the reverse process to the metric-increasing direction. The experimental results demonstrate that MOSE obviously benefits from metric-oriented training and surpasses the generative baselines in terms of all evaluation metrics.

arxiv情報

著者 Chen Chen,Yuchen Hu,Weiwei Weng,Eng Siong Chng
発行日 2023-02-23 13:12:35+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.SD, eess.AS パーマリンク