Perceive and predict: self-supervised speech representation based loss functions for speech enhancement

要約

音声強調の分野における最近の研究では、ニューラル音声強調モデルのトレーニングを支援するために、自己教師あり音声表現の使用が検討されています。
ただし、この作業の多くは、以前の特徴エンコーディングではなく、自己教師あり音声表現モデルの最も深い出力または最終出力の使用に焦点を当てています。
このような方法での自己教師あり表現の使用は、多くの場合、完全に動機づけられているわけではありません。
この作業では、きれいな音声とノイズの多い音声の特徴エンコーディング間の距離が、心理音響的に動機付けられた音声品質と明瞭度の測定値、および人間の平均オピニオン スコア (MOS) 評価と強く相関することが示されています。
この距離を損失関数として使用する実験が実行され、音声品質の知覚評価 (PESQ) などの客観的尺度を使用して、STFT スペクトログラム距離ベースの損失および音声強調文献からの他の一般的な損失関数を使用した場合よりも改善されたパフォーマンスが実証されます。
-時間客観的了解度 (STOI)。

要約(オリジナル)

Recent work in the domain of speech enhancement has explored the use of self-supervised speech representations to aid in the training of neural speech enhancement models. However, much of this work focuses on using the deepest or final outputs of self supervised speech representation models, rather than the earlier feature encodings. The use of self supervised representations in such a way is often not fully motivated. In this work it is shown that the distance between the feature encodings of clean and noisy speech correlate strongly with psychoacoustically motivated measures of speech quality and intelligibility, as well as with human Mean Opinion Score (MOS) ratings. Experiments using this distance as a loss function are performed and improved performance over the use of STFT spectrogram distance based loss as well as other common loss functions from speech enhancement literature is demonstrated using objective measures such as perceptual evaluation of speech quality (PESQ) and short-time objective intelligibility (STOI).

arxiv情報

著者 George Close,William Ravenscroft,Thomas Hain,Stefan Goetze
発行日 2023-03-07 11:09:29+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG, cs.SD, eess.AS パーマリンク