xLSTM-SENet: xLSTM for Single-Channel Speech Enhancement

要約

Conformers などのアテンションベースのアーキテクチャは音声強調には優れていますが、入力シーケンスの長さに関するスケーラビリティなどの課題に直面しています。
対照的に、最近提案された Extended Long Short-Term Memory (xLSTM) アーキテクチャは、線形のスケーラビリティを提供します。
ただし、xLSTM ベースのモデルは、音声強化に関しては未開発のままです。
この文書では、初の xLSTM ベースの単一チャネル音声強調システムである xLSTM-SENet を紹介します。
比較分析により、VoiceBank+Demand データセットでの音声強調において、xLSTM、特に LSTM が、さまざまなモデル サイズにわたって最先端の Mamba ベースおよび Conformer ベースのシステムと同等またはそれを上回るパフォーマンスを発揮できることが明らかになりました。
アブレーション研究を通じて、その有効性に寄与する指数関数的ゲートや双方向性などの主要なアーキテクチャ設計の選択肢を特定します。
当社の最高の xLSTM ベース モデルである xLSTM-SENet2 は、Voicebank+DEMAND データセット上で最先端の Mamba ベースおよび Conformer ベースのシステムを上回ります。

要約(オリジナル)

While attention-based architectures, such as Conformers, excel in speech enhancement, they face challenges such as scalability with respect to input sequence length. In contrast, the recently proposed Extended Long Short-Term Memory (xLSTM) architecture offers linear scalability. However, xLSTM-based models remain unexplored for speech enhancement. This paper introduces xLSTM-SENet, the first xLSTM-based single-channel speech enhancement system. A comparative analysis reveals that xLSTM-and notably, even LSTM-can match or outperform state-of-the-art Mamba- and Conformer-based systems across various model sizes in speech enhancement on the VoiceBank+Demand dataset. Through ablation studies, we identify key architectural design choices such as exponential gating and bidirectionality contributing to its effectiveness. Our best xLSTM-based model, xLSTM-SENet2, outperforms state-of-the-art Mamba- and Conformer-based systems on the Voicebank+DEMAND dataset.

arxiv情報

著者 Nikolai Lund Kühne,Jan Østergaard,Jesper Jensen,Zheng-Hua Tan
発行日 2025-01-10 18:10:06+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.SD, eess.AS パーマリンク