Uncertainty Estimation in Deep Speech Enhancement Using Complex Gaussian Mixture Models

要約

シングルチャネルのディープスピーチエンハンスメント手法では、多くの場合、精度を測定せずに単一の乗算マスクを推定して、きれいな音声を抽出します。
代わりに、この研究では、ニューラル ネットワーク ベースの音声強調におけるクリーンな音声推定に関連する不確実性を定量化することを提案します。
予測の不確実性は通常、偶然の不確実性と認識上の不確実性に分類されます。
前者はデータに固有の不確実性を説明し、後者はモデルの不確実性に対応します。
堅牢でクリーンな音声推定と効率的な予測不確実性の定量化を目指して、統計的複雑ガウス混合モデル (CGMM) を深い音声強調フレームワークに統合することを提案します。
より具体的には、条件付き確率密度を使用して入力と出力の間の依存関係を確率的にモデル化し、複数の複雑なガウス成分の混合としてモデル化されたきれいな音声の完全事後分布にノイズを含む入力をマッピングするようにニューラル ネットワークをトレーニングします。
さまざまなデータセットでの実験結果は、提案されたアルゴリズムが予測の不確実性を効果的に捕捉し、強力な統計モデルと深層学習を組み合わせることで優れた音声強調パフォーマンスも実現できることを示しています。

要約(オリジナル)

Single-channel deep speech enhancement approaches often estimate a single multiplicative mask to extract clean speech without a measure of its accuracy. Instead, in this work, we propose to quantify the uncertainty associated with clean speech estimates in neural network-based speech enhancement. Predictive uncertainty is typically categorized into aleatoric uncertainty and epistemic uncertainty. The former accounts for the inherent uncertainty in data and the latter corresponds to the model uncertainty. Aiming for robust clean speech estimation and efficient predictive uncertainty quantification, we propose to integrate statistical complex Gaussian mixture models (CGMMs) into a deep speech enhancement framework. More specifically, we model the dependency between input and output stochastically by means of a conditional probability density and train a neural network to map the noisy input to the full posterior distribution of clean speech, modeled as a mixture of multiple complex Gaussian components. Experimental results on different datasets show that the proposed algorithm effectively captures predictive uncertainty and that combining powerful statistical models and deep learning also delivers a superior speech enhancement performance.

arxiv情報

著者 Huajian Fang,Timo Gerkmann
発行日 2023-05-15 14:32:13+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, cs.SD, eess.AS パーマリンク