An Investigation of Incorporating Mamba for Speech Enhancement

要約

この研究は、音声強調 (SE) タスク用のスケーラブルな状態空間モデル (SSM)、Mamba を研究することを目的としています。
私たちは Mamba ベースの回帰モデルを利用して音声信号を特徴付け、SEMamba と呼ばれる Mamba 上に SE システムを構築します。
私たちは、信号レベルの距離とメトリック指向の損失関数を利用するとともに、基本および高度な SE システムのコア モデルとして Mamba を統合することによって、Mamba の特性を調査します。
SEMamba は有望な結果を示し、VoiceBank-DEMAND データセットで PESQ スコア 3.55 を達成しました。
提案された SEMamba を知覚的コントラスト ストレッチング技術と組み合わせると、3.69 という新しい最先端の PESQ スコアが得られます。

要約(オリジナル)

This work aims to study a scalable state-space model (SSM), Mamba, for the speech enhancement (SE) task. We exploit a Mamba-based regression model to characterize speech signals and build an SE system upon Mamba, termed SEMamba. We explore the properties of Mamba by integrating it as the core model in both basic and advanced SE systems, along with utilizing signal-level distances as well as metric-oriented loss functions. SEMamba demonstrates promising results and attains a PESQ score of 3.55 on the VoiceBank-DEMAND dataset. When combined with the perceptual contrast stretching technique, the proposed SEMamba yields a new state-of-the-art PESQ score of 3.69.

arxiv情報

著者 Rong Chao,Wen-Huang Cheng,Moreno La Quatra,Sabato Marco Siniscalchi,Chao-Han Huck Yang,Szu-Wei Fu,Yu Tsao
発行日 2024-05-10 16:18:49+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.SD, eess.AS パーマリンク