SCANet: A Self- and Cross-Attention Network for Audio-Visual Speech Separation


ただし、ネットワーク内のさまざまな階層位置でのマルチモーダル フュージョンを包括的に考慮するのではなく、主に上位または下位のいずれかに位置するマルチモーダル フュージョン アーキテクチャに焦点を当てています。
この論文では、効率的な視聴覚機能融合のためのアテンション メカニズムを活用する、セルフおよびクロスアテンション ネットワーク (SCANet) と呼ばれる新しいモデルを提案します。
SCANet は、セルフ アテンション (SA) ブロックとクロス アテンション (CA) ブロックの 2 種類のアテンション ブロックで構成されます。CA ブロックは、SCANet の上部 (TCA)、中間 (MCA)、下部 (BCA) に配置されます。
3 つの標準的なオーディオビジュアル分離ベンチマーク (LRS2、LRS3、および VoxCeleb2) に関する包括的な実験により、同等の推論時間を維持しながら、既存の最先端 (SOTA) 手法を上回る SCANet の有効性が実証されました。


The integration of different modalities, such as audio and visual information, plays a crucial role in human perception of the surrounding environment. Recent research has made significant progress in designing fusion modules for audio-visual speech separation. However, they predominantly focus on multi-modal fusion architectures situated either at the top or bottom positions, rather than comprehensively considering multi-modal fusion at various hierarchical positions within the network. In this paper, we propose a novel model called self- and cross-attention network (SCANet), which leverages the attention mechanism for efficient audio-visual feature fusion. SCANet consists of two types of attention blocks: self-attention (SA) and cross-attention (CA) blocks, where the CA blocks are distributed at the top (TCA), middle (MCA) and bottom (BCA) of SCANet. These blocks maintain the ability to learn modality-specific features and enable the extraction of different semantics from audio-visual features. Comprehensive experiments on three standard audio-visual separation benchmarks (LRS2, LRS3, and VoxCeleb2) demonstrate the effectiveness of SCANet, outperforming existing state-of-the-art (SOTA) methods while maintaining comparable inference time.


著者 Kai Li,Runxuan Yang,Xiaolin Hu
発行日 2023-09-25 15:40:45+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス, Google

カテゴリー: cs.CV, cs.MM, cs.SD, eess.AS パーマリンク