SCANet: A Self- and Cross-Attention Network for Audio-Visual Speech Separation

要約

音声情報や視覚情報などのさまざまなモダリティの統合は、周囲環境に対する人間の認識において重要な役割を果たします。
最近の研究により、オーディオビジュアル音声分離のための融合モジュールの設計が大幅に進歩しました。
ただし、ネットワーク内のさまざまな階層位置でのマルチモーダル フュージョンを包括的に考慮するのではなく、主に上位または下位のいずれかに位置するマルチモーダル フュージョン アーキテクチャに焦点を当てています。
この論文では、効率的な視聴覚機能融合のためのアテンション メカニズムを活用する、セルフおよびクロスアテンション ネットワーク (SCANet) と呼ばれる新しいモデルを提案します。
SCANet は、セルフ アテンション (SA) ブロックとクロス アテンション (CA) ブロックの 2 種類のアテンション ブロックで構成されます。CA ブロックは、SCANet の上部 (TCA)、中間 (MCA)、下部 (BCA) に配置されます。
これらのブロックは、モダリティ固有の機能を学習する機能を維持し、オーディオビジュアル機能からさまざまなセマンティクスを抽出できるようにします。
3 つの標準的なオーディオビジュアル分離ベンチマーク (LRS2、LRS3、および VoxCeleb2) に関する包括的な実験により、同等の推論時間を維持しながら、既存の最先端 (SOTA) 手法を上回る SCANet の有効性が実証されました。

要約(オリジナル)

The integration of different modalities, such as audio and visual information, plays a crucial role in human perception of the surrounding environment. Recent research has made significant progress in designing fusion modules for audio-visual speech separation. However, they predominantly focus on multi-modal fusion architectures situated either at the top or bottom positions, rather than comprehensively considering multi-modal fusion at various hierarchical positions within the network. In this paper, we propose a novel model called self- and cross-attention network (SCANet), which leverages the attention mechanism for efficient audio-visual feature fusion. SCANet consists of two types of attention blocks: self-attention (SA) and cross-attention (CA) blocks, where the CA blocks are distributed at the top (TCA), middle (MCA) and bottom (BCA) of SCANet. These blocks maintain the ability to learn modality-specific features and enable the extraction of different semantics from audio-visual features. Comprehensive experiments on three standard audio-visual separation benchmarks (LRS2, LRS3, and VoxCeleb2) demonstrate the effectiveness of SCANet, outperforming existing state-of-the-art (SOTA) methods while maintaining comparable inference time.

arxiv情報

著者 Kai Li,Runxuan Yang,Xiaolin Hu
発行日 2023-09-25 15:40:45+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.MM, cs.SD, eess.AS パーマリンク