Magnitude-Phase Dual-Path Speech Enhancement Network based on Self-Supervised Embedding and Perceptual Contrast Stretch Boosting

要約

スピーチの自己学習学習(SSL)は、さまざまな音声処理タスクで大きな進歩を遂げていますが、音声向上の改善の余地がまだあります(SE)。
このペーパーでは、自己監視された機能とSEのマグニチュードフェース情報を組み合わせたデュアルパスフレームワークであるBSP-MPNETを紹介します。
このアプローチは、知覚コントラストストレッチング(PCS)アルゴリズムを適用して、マグニチング相スペクトルを強化することから始まります。
次に、マグニチュードフェーズ2Dコース(MP-2DC)エンコーダーを拡張スペクトルから粗い特徴を抽出します。
次に、機能を分離する自己監視学習(FS-SSL)モデルは、大きさと位相コンポーネントの自己監視埋め込みを個別に生成します。
これらの埋め込みは、クロスドメインの特徴表現を作成するために融合します。
最後に、2つの並列RNN強化マルチアテンション(REMA)マスクデコーダー機能を改良し、マスクに塗布し、音声信号を再構築します。
VoiceBank+DemandとWhamrでBSP-MPNETを評価します!
データセット。
実験結果は、BSP-MPNETがさまざまな騒音条件下で既存の方法を上回り、自己監視された音声強化研究のための新しい指示を提供することを示しています。
BSP-mpnetコードの実装は、オンラインで入手できます\ footnote [2] {https://github.com/alimmat/bsp-mpnet。
\ label {s1}}

要約(オリジナル)

Speech self-supervised learning (SSL) has made great progress in various speech processing tasks, but there is still room for improvement in speech enhancement (SE). This paper presents BSP-MPNet, a dual-path framework that combines self-supervised features with magnitude-phase information for SE. The approach starts by applying the perceptual contrast stretching (PCS) algorithm to enhance the magnitude-phase spectrum. A magnitude-phase 2D coarse (MP-2DC) encoder then extracts coarse features from the enhanced spectrum. Next, a feature-separating self-supervised learning (FS-SSL) model generates self-supervised embeddings for the magnitude and phase components separately. These embeddings are fused to create cross-domain feature representations. Finally, two parallel RNN-enhanced multi-attention (REMA) mask decoders refine the features, apply them to the mask, and reconstruct the speech signal. We evaluate BSP-MPNet on the VoiceBank+DEMAND and WHAMR! datasets. Experimental results show that BSP-MPNet outperforms existing methods under various noise conditions, providing new directions for self-supervised speech enhancement research. The implementation of the BSP-MPNet code is available online\footnote[2]{https://github.com/AlimMat/BSP-MPNet. \label{s1}}

arxiv情報

著者 Alimjan Mattursun,Liejun Wang,Yinfeng Yu,Chunyang Ma
発行日 2025-03-27 14:52:06+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.SD, eess.AS パーマリンク