Mamba-SEUNet: Mamba UNet for Monaural Speech Enhancement

要約

最近の音声強調 (SE) 研究では、トランスフォーマーとその変種が主要な方法論として浮上しています。
ただし、自己注意メカニズムの二次的な複雑さにより、実際の展開には一定の制限が課せられます。
新しい状態空間モデル (SSM) としての Mamba は、長いシーケンスをモデル化する強力な機能と比較的低い計算複雑さにより、自然言語処理とコンピューター ビジョンで広く応用されています。
この作業では、SE タスクのために Mamba と U-Net を統合する革新的なアーキテクチャである Mamba-SEUNet を紹介します。
双方向 Mamba を活用して、さまざまな解像度で音声信号の前方依存性と後方依存性をモデル化し、スキップ接続を組み込んでマルチスケール情報をキャプチャすることで、当社のアプローチは最先端 (SOTA) パフォーマンスを実現します。
VCTK+DEMAND データセットの実験結果は、Mamba-SEUNet が低い計算複雑性を維持しながら、PESQ スコア 3.59 を達成することを示しています。
知覚コントラスト ストレッチング技術と組み合わせると、Mamba-SEUNet は PESQ スコアをさらに 3.73 に向上させます。

要約(オリジナル)

In recent speech enhancement (SE) research, transformer and its variants have emerged as the predominant methodologies. However, the quadratic complexity of the self-attention mechanism imposes certain limitations on practical deployment. Mamba, as a novel state-space model (SSM), has gained widespread application in natural language processing and computer vision due to its strong capabilities in modeling long sequences and relatively low computational complexity. In this work, we introduce Mamba-SEUNet, an innovative architecture that integrates Mamba with U-Net for SE tasks. By leveraging bidirectional Mamba to model forward and backward dependencies of speech signals at different resolutions, and incorporating skip connections to capture multi-scale information, our approach achieves state-of-the-art (SOTA) performance. Experimental results on the VCTK+DEMAND dataset indicate that Mamba-SEUNet attains a PESQ score of 3.59, while maintaining low computational complexity. When combined with the Perceptual Contrast Stretching technique, Mamba-SEUNet further improves the PESQ score to 3.73.

arxiv情報

著者 Junyu Wang,Zizhen Lin,Tianrui Wang,Meng Ge,Longbiao Wang,Jianwu Dang
発行日 2025-01-02 10:56:07+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.SD, eess.AS パーマリンク