On the Behavior of Intrusive and Non-intrusive Speech Enhancement Metrics in Predictive and Generative Settings

要約

ディープスピーチエンハンスメントの分野は、その誕生以来、スペクトル マッピングやマスキングなどの予測 (識別) アプローチによって支配されてきました。
しかし、最近では、新しい生成アプローチが音声強調に適用され、高い主観的品質スコアを備えた良好なノイズ除去パフォーマンスが達成されています。
同時に、深層学習の進歩により、ニューラル ネットワーク ベースのメトリクスの作成も可能になりました。これは、参照なしで (非侵入的に) 動作できるなどの望ましい特性を備えています。
生成的に強化された音声は根本的に異なる残留歪みを示す傾向があるため、手段的音声メトリクスを使用したその評価は、予測的に強化された音声と比較して異なる動作をする可能性があります。
この論文では、予測パラダイムおよび生成パラダイムの下でトレーニングされた同じ音声強調バックボーンのパフォーマンスをさまざまな指標で評価し、侵入的測定と非侵入的測定がパラダイムごとに異なる相関関係を示すことを示します。
この分析は、モデルのトレーニング プロセスに関係なく、音声強調パフォーマンスの完全かつ公平な全体像を描くことができるメトリクスの探索を動機付けます。

要約(オリジナル)

Since its inception, the field of deep speech enhancement has been dominated by predictive (discriminative) approaches, such as spectral mapping or masking. Recently, however, novel generative approaches have been applied to speech enhancement, attaining good denoising performance with high subjective quality scores. At the same time, advances in deep learning also allowed for the creation of neural network-based metrics, which have desirable traits such as being able to work without a reference (non-intrusively). Since generatively enhanced speech tends to exhibit radically different residual distortions, its evaluation using instrumental speech metrics may behave differently compared to predictively enhanced speech. In this paper, we evaluate the performance of the same speech enhancement backbone trained under predictive and generative paradigms on a variety of metrics and show that intrusive and non-intrusive measures correlate differently for each paradigm. This analysis motivates the search for metrics that can together paint a complete and unbiased picture of speech enhancement performance, irrespective of the model’s training process.

arxiv情報

著者 Danilo de Oliveira,Julius Richter,Jean-Marie Lemercier,Tal Peer,Timo Gerkmann
発行日 2023-06-05 16:30:17+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, cs.SD, eess.AS パーマリンク