PAAPLoss: A Phonetic-Aligned Acoustic Parameter Loss for Speech Enhancement

要約

近年の急速な進歩にもかかわらず、現在の音声強調モデルは、実際のきれいな音声とは知覚品質が異なる音声を生成することがよくあります。
音響音声学のドメイン知識を使用して、知覚品質の違いを形式化する学習目標を提案します。
微分不可能な時間音響パラメーター (スペクトルの傾き、スペクトル フラックス、シマーなど) を特定し、発話全体の時系列値を正確に予測できるニューラル ネットワーク推定器を開発します。
また、音響パラメータは異なる音素で異なる動作を示すことが知られているため、各機能の音素固有の重みをモデル化します。
この基準を音声を生成する任意のモデルに補助損失として追加して、音声出力を最適化し、これらの特徴のクリーンな音声の値に一致させることができます。
実験的に、標準的な評価指標によって測定されるように、時間領域と時間-周波数領域の両方で音声強調ワークフローが改善されることが示されています。
また、音響パラメーターの音素依存の改善の分析を提供し、この方法が提供する追加の解釈可能性を示します。
この分析により、現在どの機能が改善のボトルネックになっているのかがわかります。

要約(オリジナル)

Despite rapid advancement in recent years, current speech enhancement models often produce speech that differs in perceptual quality from real clean speech. We propose a learning objective that formalizes differences in perceptual quality, by using domain knowledge of acoustic-phonetics. We identify temporal acoustic parameters — such as spectral tilt, spectral flux, shimmer, etc. — that are non-differentiable, and we develop a neural network estimator that can accurately predict their time-series values across an utterance. We also model phoneme-specific weights for each feature, as the acoustic parameters are known to show different behavior in different phonemes. We can add this criterion as an auxiliary loss to any model that produces speech, to optimize speech outputs to match the values of clean speech in these features. Experimentally we show that it improves speech enhancement workflows in both time-domain and time-frequency domain, as measured by standard evaluation metrics. We also provide an analysis of phoneme-dependent improvement on acoustic parameters, demonstrating the additional interpretability that our method provides. This analysis can suggest which features are currently the bottleneck for improvement.

arxiv情報

著者 Muqiao Yang,Joseph Konan,David Bick,Yunyang Zeng,Shuo Han,Anurag Kumar,Shinji Watanabe,Bhiksha Raj
発行日 2023-02-16 05:17:06+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.SD, eess.AS パーマリンク