Cooperation Does Matter: Exploring Multi-Order Bilateral Relations for Audio-Visual Segmentation

要約

最近、オーディオビジュアルセグメンテーション (AVS) タスクが導入されました。これは、特定のビデオ内の音声オブジェクトを含むピクセルをグループ化することを目的としています。
このタスクでは、史上初のオーディオ主導によるシーンのピクセルレベルの理解が必要となり、重大な課題が生じます。
この論文では、COoperation of Multi-order Bilarations の頭字語である COMBO と呼ばれる、革新的なオーディオビジュアル変換フレームワークを提案します。
私たちのフレームワークは、AVS 内の 3 つのタイプの双方向エンタングルメント、つまりピクセルエンタングルメント、モダリティエンタングルメント、および時間エンタングルメントを初めて調査します。
ピクセルエンタングルメントに関しては、事前の知識を活用して基本モデルからより正確な視覚特徴を生成する Siam-Encoder Module (SEM) を採用しています。
モダリティエンタングルメントについては、双方向融合モジュール (BFM) を設計し、COMBO が対応する視覚信号と聴覚信号を双方向に調整できるようにします。
時間的エンタングルメントに関しては、時間的固有の規則に従って、革新的な適応型フレーム間一貫性損失を導入します。
AVSBench オブジェクト (S4 で 84.7 mIoU、MS3 で 59.2 mIoU) および AVSBench セマンティック (AVSS で 42.1 mIoU) データセットに関する包括的な実験とアブレーション研究により、COMBO が以前の最先端の手法を上回ることが実証されました。
コードとその他の結果は https://combo-avs.github.io/ で公開されます。

要約(オリジナル)

Recently, an audio-visual segmentation (AVS) task has been introduced, aiming to group pixels with sounding objects within a given video. This task necessitates a first-ever audio-driven pixel-level understanding of the scene, posing significant challenges. In this paper, we propose an innovative audio-visual transformer framework, termed COMBO, an acronym for COoperation of Multi-order Bilateral relatiOns. For the first time, our framework explores three types of bilateral entanglements within AVS: pixel entanglement, modality entanglement, and temporal entanglement. Regarding pixel entanglement, we employ a Siam-Encoder Module (SEM) that leverages prior knowledge to generate more precise visual features from the foundational model. For modality entanglement, we design a Bilateral-Fusion Module (BFM), enabling COMBO to align corresponding visual and auditory signals bi-directionally. As for temporal entanglement, we introduce an innovative adaptive inter-frame consistency loss according to the inherent rules of temporal. Comprehensive experiments and ablation studies on AVSBench-object (84.7 mIoU on S4, 59.2 mIou on MS3) and AVSBench-semantic (42.1 mIoU on AVSS) datasets demonstrate that COMBO surpasses previous state-of-the-art methods. Code and more results will be publicly available at https://combo-avs.github.io/.

arxiv情報

著者	Qi Yang,Xing Nie,Tong Li,Pengfei Gao,Ying Guo,Cheng Zhen,Pengfei Yan,Shiming Xiang
発行日	2023-12-11 15:51:38+00:00
arxivサイト	arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

Cooperation Does Matter: Exploring Multi-Order Bilateral Relations for Audio-Visual Segmentation

要約

要約(オリジナル)

arxiv情報

提供元, 利用サービス

最近の投稿

最近のコメント

アーカイブ

カテゴリー