BSS-CFFMA: Cross-Domain Feature Fusion and Multi-Attention Speech Enhancement Network based on Self-Supervised Embedding

要約

音声自己教師あり学習 (SSL) は、複数の下流タスクで最先端 (SOTA) パフォーマンスを達成しました。
ただし、音声強調 (SE) タスクへの応用はまだ未熟であり、改善の余地があります。
この研究では、自己教師あり埋め込みを活用する、BSS-CFFMA と呼ばれる新しいクロスドメイン機能融合およびマルチアテンション音声強化ネットワークを紹介します。
BSS-CFFMA は、マルチスケール クロスドメイン機能融合 (MSCFF) ブロックと残留ハイブリッド マルチアテンション (RHMA) ブロックで構成されます。
MSCFF ブロックはクロスドメイン機能を効果的に統合し、豊富な音響情報の抽出を容易にします。
RHMA ブロックは、主要な拡張モジュールとして機能し、3 つの異なる注意モジュールを利用して、多様な注意表現を捕捉し、高品質の音声信号を推定します。
VoiceBank-DEMAND データセットの比較およびアブレーション研究を通じて BSS-CFFMA モデルのパフォーマンスを評価し、SOTA 結果を達成します。
さらに、WHAMR! から 3 種類のデータを選択します。
データセットは音声強調タスク用に特別に設計されたコレクションで、ノイズ除去のみ、残響除去のみ、およびノイズ除去と残響除去の同時などのタスクにおける BSS-CFFMA の機能を評価します。
この研究は、残響除去と同時のノイズ除去と残響除去を含む複雑なタスクにおける自己教師あり埋め込みベースの音声強調手法の有効性を調査する最初の試みです。
BSS-CFFMA のデモ実装は、オンライン\脚注[2]{https://github.com/AlimMat/BSS-CFFMA で入手できます。
\label{s1}}。

要約(オリジナル)

Speech self-supervised learning (SSL) represents has achieved state-of-the-art (SOTA) performance in multiple downstream tasks. However, its application in speech enhancement (SE) tasks remains immature, offering opportunities for improvement. In this study, we introduce a novel cross-domain feature fusion and multi-attention speech enhancement network, termed BSS-CFFMA, which leverages self-supervised embeddings. BSS-CFFMA comprises a multi-scale cross-domain feature fusion (MSCFF) block and a residual hybrid multi-attention (RHMA) block. The MSCFF block effectively integrates cross-domain features, facilitating the extraction of rich acoustic information. The RHMA block, serving as the primary enhancement module, utilizes three distinct attention modules to capture diverse attention representations and estimate high-quality speech signals. We evaluate the performance of the BSS-CFFMA model through comparative and ablation studies on the VoiceBank-DEMAND dataset, achieving SOTA results. Furthermore, we select three types of data from the WHAMR! dataset, a collection specifically designed for speech enhancement tasks, to assess the capabilities of BSS-CFFMA in tasks such as denoising only, dereverberation only, and simultaneous denoising and dereverberation. This study marks the first attempt to explore the effectiveness of self-supervised embedding-based speech enhancement methods in complex tasks encompassing dereverberation and simultaneous denoising and dereverberation. The demo implementation of BSS-CFFMA is available online\footnote[2]{https://github.com/AlimMat/BSS-CFFMA. \label{s1}}.

arxiv情報

著者 Alimjan Mattursun,Liejun Wang,Yinfeng Yu
発行日 2024-08-13 12:27:24+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, eess.AS パーマリンク