要約
このペーパーでは、生の波形に直接適用されるリアルタイムの因果オーディオ除去用に設計されたタイムドメインニューラルネットワークアーキテクチャであるCleanumambaを紹介します。
Cleanumambaは、ボトルネック層にMamba状態空間モデルを組み込んだU-Netエンコーダーデコーダー構造を活用します。
従来の自己告発とLSTMメカニズムをMambaに置き換えることにより、私たちのアーキテクチャは、一定のメモリフットプリントを維持しながら、優れた除去パフォーマンスを提供し、ストリーミング操作を可能にします。
効率を向上させるために、構造化されたチャネル剪定を適用し、オーディオ品質を損なうことなくモデルサイズの8倍の削減を達成しました。
私たちのモデルは、Speech 2020深部ノイズ抑制チャレンジで強い結果を示しています。
具体的には、CleanumambaはPESQスコア2.42とSTOIを95.1%で、442Kパラメーターと468m MACのみで、リアルタイムパフォーマンスで大きなモデルをマッチングまたはアウトパフォームします。
コードはhttps://github.com/lab-emi/cleanumambaで入手できます
要約(オリジナル)
This paper presents CleanUMamba, a time-domain neural network architecture designed for real-time causal audio denoising directly applied to raw waveforms. CleanUMamba leverages a U-Net encoder-decoder structure, incorporating the Mamba state-space model in the bottleneck layer. By replacing conventional self-attention and LSTM mechanisms with Mamba, our architecture offers superior denoising performance while maintaining a constant memory footprint, enabling streaming operation. To enhance efficiency, we applied structured channel pruning, achieving an 8X reduction in model size without compromising audio quality. Our model demonstrates strong results in the Interspeech 2020 Deep Noise Suppression challenge. Specifically, CleanUMamba achieves a PESQ score of 2.42 and STOI of 95.1% with only 442K parameters and 468M MACs, matching or outperforming larger models in real-time performance. Code will be available at: https://github.com/lab-emi/CleanUMamba
arxiv情報
著者 | Sjoerd Groot,Qinyu Chen,Jan C. van Gemert,Chang Gao |
発行日 | 2025-02-10 18:07:54+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google