A Closer Look at Wav2Vec2 Embeddings for On-Device Single-Channel Speech Enhancement

要約

自己教師付き学習モデルは、自動音声認識、話者識別、キーワード検出など、特定の音声タスクに非常に有効であることがわかっている。SSL表現が音声認識や関連タスクに有用であることは否定できないが、音声強調システムにおけるSSL表現の有用性はまだ確立されておらず、おそらく正しく理解されていない。本論文では、困難な条件下での単一チャンネル音声強調におけるSSL表現の利用を調査し、強調タスクにほとんど付加価値を与えないことを発見した。我々の制約条件は、デバイス上でのリアルタイム音声強調のために設計されており、モデルは因果的であり、計算フットプリントは小さい。また、低SNRの条件下では、このようなモデルは優れたエンハンスメントを提供することができません。SSL表現がこのようなエンハンスメントモデルの性能にどのような影響を与えるかを系統的に調べるために、我々は様々な形の知識補充と事前学習を含む、これらの埋め込みを利用する様々な技術を提案する。

要約(オリジナル)

Self-supervised learned models have been found to be very effective for certain speech tasks such as automatic speech recognition, speaker identification, keyword spotting and others. While the features are undeniably useful in speech recognition and associated tasks, their utility in speech enhancement systems is yet to be firmly established, and perhaps not properly understood. In this paper, we investigate the uses of SSL representations for single-channel speech enhancement in challenging conditions and find that they add very little value for the enhancement task. Our constraints are designed around on-device real-time speech enhancement — model is causal, the compute footprint is small. Additionally, we focus on low SNR conditions where such models struggle to provide good enhancement. In order to systematically examine how SSL representations impact performance of such enhancement models, we propose a variety of techniques to utilize these embeddings which include different forms of knowledge-distillation and pre-training.

arxiv情報

著者 Ravi Shankar,Ke Tan,Buye Xu,Anurag Kumar
発行日 2024-03-03 02:05:17+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.LG, eess.AS パーマリンク