CATR: Combinatorial-Dependence Audio-Queried Transformer for Audio-Visual Video Segmentation

要約

オーディオビジュアルビデオセグメンテーション (AVVS) は、画像フレーム内で音を発生するオブジェクトのピクセルレベルのマップを生成し、ビデオ内で歌っている人物を識別してセグメント化するなど、そのマップが特定の音声に忠実に準拠していることを確認することを目的としています。
しかし、既存の方法には 2 つの制限があります。1) それらは、オーディオとビデオの組み合わせに固有の時空間依存性を無視して、ビデオの時間的特徴とオーディオビジュアルのインタラクティブな特徴を別々に扱っていること、および 2) それらの方法では、オーディオの制約とオブジェクトレベルの情報を適切に導入していないことです。
デコード段階で、音声指令に準拠しないセグメンテーション結果が得られます。
これらの問題に取り組むために、オーディオとビデオの特徴をそれぞれの時間的および空間的次元から結合し、それらの結合された依存関係をキャプチャする、分離されたオーディオ/ビデオ変換器を提案します。
メモリ消費を最適化するために、ブロックを設計します。ブロックをスタックすると、メモリ効率の高い方法でオーディオビジュアルのきめ細かい組み合わせ依存性をキャプチャできるようになります。
さらに、デコード段階で音声制限付きのクエリを導入します。
これらのクエリには豊富なオブジェクト レベルの情報が含まれており、デコードされたマスクがサウンドに確実に準拠していることが保証されます。
実験結果は、私たちのアプローチの有効性を裏付けており、私たちのフレームワークは 2 つのバックボーンを使用して 3 つのデータセットすべてで新しい SOTA パフォーマンスを達成しています。
コードは \url{https://github.com/aspirinone/CATR.github.io} で入手できます。

要約(オリジナル)

Audio-visual video segmentation~(AVVS) aims to generate pixel-level maps of sound-producing objects within image frames and ensure the maps faithfully adhere to the given audio, such as identifying and segmenting a singing person in a video. However, existing methods exhibit two limitations: 1) they address video temporal features and audio-visual interactive features separately, disregarding the inherent spatial-temporal dependence of combined audio and video, and 2) they inadequately introduce audio constraints and object-level information during the decoding stage, resulting in segmentation outcomes that fail to comply with audio directives. To tackle these issues, we propose a decoupled audio-video transformer that combines audio and video features from their respective temporal and spatial dimensions, capturing their combined dependence. To optimize memory consumption, we design a block, which, when stacked, enables capturing audio-visual fine-grained combinatorial-dependence in a memory-efficient manner. Additionally, we introduce audio-constrained queries during the decoding phase. These queries contain rich object-level information, ensuring the decoded mask adheres to the sounds. Experimental results confirm our approach’s effectiveness, with our framework achieving a new SOTA performance on all three datasets using two backbones. The code is available at \url{https://github.com/aspirinone/CATR.github.io}

arxiv情報

著者 Kexin Li,Zongxin Yang,Lei Chen,Yi Yang,Jun Xiao
発行日 2023-09-20 17:55:55+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク