要約
通常、オーディオ信号とビジュアル信号は同時に発生し、人間はこれら 2 つのモダリティからの情報を関連付けて同期する生来の能力を備えています。
最近、シーン内の音声オブジェクトのセグメンテーション マップを作成することを目的とした、オーディオビジュアル セグメンテーション (AVS) として知られる困難な問題が浮上しました。
しかし、これまでに提案されている手法では、音声情報と視覚情報が十分に統合されておらず、計算コストが非常に高かった。
さらに、さまざまなステージの出力が十分に活用されていません。
この研究を促進するために、新しいプログレッシブ コンフィデント マスキング アテンション ネットワーク (PMCANet) を導入します。
注意メカニズムを活用して、オーディオ信号とビジュアルフレーム間の本質的な相関関係を明らかにします。
さらに、クエリ トークンを選択することで意味認識を強化する、効率的かつ効果的なクロスアテンション モジュールを設計します。
この選択は、ネットワークの多段階の予測出力に基づいて、信頼性重視のユニットによって決定されます。
実験では、私たちのネットワークが他の AVS 手法よりも優れていると同時に、必要な計算リソースが少ないことが実証されています。
要約(オリジナル)
Audio and visual signals typically occur simultaneously, and humans possess an innate ability to correlate and synchronize information from these two modalities. Recently, a challenging problem known as Audio-Visual Segmentation (AVS) has emerged, intending to produce segmentation maps for sounding objects within a scene. However, the methods proposed so far have not sufficiently integrated audio and visual information, and the computational costs have been extremely high. Additionally, the outputs of different stages have not been fully utilized. To facilitate this research, we introduce a novel Progressive Confident Masking Attention Network (PMCANet). It leverages attention mechanisms to uncover the intrinsic correlations between audio signals and visual frames. Furthermore, we design an efficient and effective cross-attention module to enhance semantic perception by selecting query tokens. This selection is determined through confidence-driven units based on the network’s multi-stage predictive outputs. Experiments demonstrate that our network outperforms other AVS methods while requiring less computational resources.
arxiv情報
著者 | Yuxuan Wang,Feng Dong,Jinchao Zhu |
発行日 | 2024-06-04 14:21:41+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google