SPMamba: State-space model is all you need in speech separation

要約

既存の CNN ベースの音声分離モデルは、局所的な受容野の制限に直面しており、長時間の依存関係を効果的に捕捉できません。
LSTM および Transformer ベースの音声分離モデルはこの問題を回避できますが、複雑性が高いため、長い音声を扱う際の計算リソースと推論効率の課題に直面します。
この課題に対処するために、私たちは SPMamba と呼ばれる革新的な音声分離方法を導入しました。
このモデルは、堅牢な TF-GridNet アーキテクチャに基づいて構築されており、従来の BLSTM モジュールを双方向 Mamba モジュールに置き換えます。
これらのモジュールは、時間次元と周波数次元の間の時空間関係を効果的にモデル化し、SPMamba が線形の計算複雑さで長距離の依存関係をキャプチャできるようにします。
具体的には、Mamba モジュール内の双方向処理により、モデルが過去と将来の両方のコンテキスト情報を利用できるようになり、分離パフォーマンスが向上します。
WSJ0-2Mix、WHAM!、Libri2Mix などの公開データセットと、新しく構築された Echo2Mix データセットに対して行われた広範な実験により、SPMamba が既存の最先端モデルを大幅に上回り、優れた結果を達成しながら計算の複雑さを軽減できることが実証されました。

これらの調査結果は、複雑な環境における音声分離の複雑な課題に取り組む際の SPMamba の有効性を浮き彫りにしました。

要約(オリジナル)

Existing CNN-based speech separation models face local receptive field limitations and cannot effectively capture long time dependencies. Although LSTM and Transformer-based speech separation models can avoid this problem, their high complexity makes them face the challenge of computational resources and inference efficiency when dealing with long audio. To address this challenge, we introduce an innovative speech separation method called SPMamba. This model builds upon the robust TF-GridNet architecture, replacing its traditional BLSTM modules with bidirectional Mamba modules. These modules effectively model the spatiotemporal relationships between the time and frequency dimensions, allowing SPMamba to capture long-range dependencies with linear computational complexity. Specifically, the bidirectional processing within the Mamba modules enables the model to utilize both past and future contextual information, thereby enhancing separation performance. Extensive experiments conducted on public datasets, including WSJ0-2Mix, WHAM!, and Libri2Mix, as well as the newly constructed Echo2Mix dataset, demonstrated that SPMamba significantly outperformed existing state-of-the-art models, achieving superior results while also reducing computational complexity. These findings highlighted the effectiveness of SPMamba in tackling the intricate challenges of speech separation in complex environments.

arxiv情報

著者 Kai Li,Guo Chen,Runxuan Yang,Xiaolin Hu
発行日 2024-09-10 14:02:58+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.SD, eess.AS パーマリンク