An Efficient Speech Separation Network Based on Recurrent Fusion Dilated Convolution and Channel Attention

要約

我々は、拡張畳み込み、マルチスケール融合(MSF)、および畳み込みベースのネットワークの限られた受容野とトランスベースのネットワークの高い計算コストを克服するためのチャネル注意を組み合わせた、効率的な音声分離ニューラルネットワークARFDCNを紹介します。
推奨されるネットワーク アーキテクチャはエンコーダ/デコーダ ベースです。
拡張値を徐々に増加させた拡張畳み込みを使用してローカルおよびグローバルの特徴を学習し、それらを隣接するステージで融合することにより、モデルは豊富な特徴コンテンツを学習できます。
一方、ネットワークにチャネル アテンション モジュールを追加することで、モデルはチャネルの重みを抽出し、より重要な特徴を学習できるため、表現力と堅牢性が向上します。
実験結果は、このモデルがパフォーマンスと計算効率の間で適切なバランスを達成しており、実用的なアプリケーションにおける現在の主流モデルの有望な代替となることを示しています。

要約(オリジナル)

We present an efficient speech separation neural network, ARFDCN, which combines dilated convolutions, multi-scale fusion (MSF), and channel attention to overcome the limited receptive field of convolution-based networks and the high computational cost of transformer-based networks. The suggested network architecture is encoder-decoder based. By using dilated convolutions with gradually increasing dilation value to learn local and global features and fusing them at adjacent stages, the model can learn rich feature content. Meanwhile, by adding channel attention modules to the network, the model can extract channel weights, learn more important features, and thus improve its expressive power and robustness. Experimental results indicate that the model achieves a decent balance between performance and computational efficiency, making it a promising alternative to current mainstream models for practical applications.

arxiv情報

著者 Junyu Wang
発行日 2023-06-09 13:30:27+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.SD, eess.AS パーマリンク