Integrating Uncertainty into Neural Network-based Speech Enhancement

要約

時間周波数領域における教師ありマスキング アプローチは、ディープ ニューラル ネットワークを使用して乗算マスクを推定し、きれいな音声を抽出することを目的としています。
これにより、信頼性の保証や尺度がまったくなく、入力ごとに単一の推定値が得られます。
この論文では、クリーンな音声推定における不確実性をモデル化する利点を研究します。
予測の不確実性は通常、偶然の不確実性と認識上の不確実性に分類されます。
前者はデータの固有のランダム性を指し、後者はモデル パラメーターの不確実性を指します。
この研究では、ニューラル ネットワーク ベースの音声強調における偶発的不確実性と認識論的不確実性を共同でモデル化するためのフレームワークを提案します。
提案されたアプローチは、音声事後分布の統計的モーメントを推定することによって偶然の不確実性を捕捉し、クリーンな音声推定をさらに改善するために不確実性推定を明示的に組み込んでいます。
認識論的な不確実性については、ニューラル ネットワーク パラメーターの不確実性を定量化するために、モンテカルロ ドロップアウトとディープ アンサンブルという 2 つのベイジアン深層学習アプローチを調査します。
私たちの分析は、提案されたフレームワークが実用的で信頼できる不確実性の捕捉を促進する一方で、さまざまな不確実性のソースを組み合わせることで、より信頼性の高い予測不確実性の推定値が得られることを示しています。
さらに、さまざまなデータセットでフレームワークを評価することにより、音声強調パフォーマンスにおける不確実性をモデル化する利点を実証し、不確実性を考慮していない同等のモデルと比較して顕著な改善を示しました。

要約(オリジナル)

Supervised masking approaches in the time-frequency domain aim to employ deep neural networks to estimate a multiplicative mask to extract clean speech. This leads to a single estimate for each input without any guarantees or measures of reliability. In this paper, we study the benefits of modeling uncertainty in clean speech estimation. Prediction uncertainty is typically categorized into aleatoric uncertainty and epistemic uncertainty. The former refers to inherent randomness in data, while the latter describes uncertainty in the model parameters. In this work, we propose a framework to jointly model aleatoric and epistemic uncertainties in neural network-based speech enhancement. The proposed approach captures aleatoric uncertainty by estimating the statistical moments of the speech posterior distribution and explicitly incorporates the uncertainty estimate to further improve clean speech estimation. For epistemic uncertainty, we investigate two Bayesian deep learning approaches: Monte Carlo dropout and Deep ensembles to quantify the uncertainty of the neural network parameters. Our analyses show that the proposed framework promotes capturing practical and reliable uncertainty, while combining different sources of uncertainties yields more reliable predictive uncertainty estimates. Furthermore, we demonstrate the benefits of modeling uncertainty on speech enhancement performance by evaluating the framework on different datasets, exhibiting notable improvement over comparable models that fail to account for uncertainty.

arxiv情報

著者 Huajian Fang,Dennis Becker,Stefan Wermter,Timo Gerkmann
発行日 2023-05-15 15:55:12+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, cs.SD, eess.AS パーマリンク