Efficient Encoder-Decoder and Dual-Path Conformer for Comprehensive Feature Learning in Speech Enhancement

要約

現在の音声強調 (SE) 研究では、チャネル アテンションと空間アテンションがほとんど無視されており、エンコーダ/デコーダ アーキテクチャに基づくネットワークでは、中間拡張層に効率的な入力を提供する方法が適切に検討されていません。
これらの問題に対処するために、この論文では、改良された高密度接続ブロック、デュアルパス モジュール、畳み込み拡張トランス (コンフォーマー)、チャネル アテンション、および空間アテンションを組み込んだ時間周波数 (T-F) ドメイン SE ネットワーク (DPCFCS-Net) を提案します。
以前のモデルと比較して、提案されたモデルはより効率的なエンコーダ/デコーダを備えており、包括的な機能を学習できます。
VCTK+DEMAND データセットの実験結果は、私たちの手法が SE パフォーマンスにおいて既存の手法を上回ることを示しています。
さらに、この研究で開発された改良された高密度接続ブロックと 2 次元アテンション モジュールは適応性が高く、既存のネットワークに簡単に統合できます。

要約(オリジナル)

Current speech enhancement (SE) research has largely neglected channel attention and spatial attention, and encoder-decoder architecture-based networks have not adequately considered how to provide efficient inputs to the intermediate enhancement layer. To address these issues, this paper proposes a time-frequency (T-F) domain SE network (DPCFCS-Net) that incorporates improved densely connected blocks, dual-path modules, convolution-augmented transformers (conformers), channel attention, and spatial attention. Compared with previous models, our proposed model has a more efficient encoder-decoder and can learn comprehensive features. Experimental results on the VCTK+DEMAND dataset demonstrate that our method outperforms existing techniques in SE performance. Furthermore, the improved densely connected block and two dimensions attention module developed in this work are highly adaptable and easily integrated into existing networks.

arxiv情報

著者 Junyu Wang
発行日 2023-06-09 12:52:01+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.SD, eess.AS パーマリンク