Audio-Visual Segmentation with Semantics

要約

オーディオ ビジュアル セグメンテーション (AVS) と呼ばれる新しい問題を提案します。この問題の目標は、画像フレームの時点で音を生成するオブジェクトのピクセル レベルのマップを出力することです。
この研究を容易にするために、最初のオーディオビジュアル セグメンテーション ベンチマーク、つまり AVSBench を構築し、可聴ビデオ内のサウンド オブジェクトにピクセル単位の注釈を提供します。
AVSBench-object (単一ソース サブセット、複数ソース サブセット) と AVSBench-semantic (セマンティック ラベル サブセット) の 3 つのサブセットが含まれています。
したがって、次の 3 つの設定が検討されます。
2) 複数の音源を使用した完全に監視された視聴覚セグメンテーション、および 3) 完全に監視された視聴覚セマンティック セグメンテーション。
最初の 2 つの設定では、音声に対応するピクセルを示すサウンド オブジェクトのバイナリ マスクを生成する必要があります。
これらの問題に対処するために、一時的なピクセル単位のオーディオビジュアル相互作用モジュールを使用して、ビジュアルセグメンテーションプロセスのガイダンスとしてオーディオセマンティクスを挿入する新しいベースラインメソッドを提案します。
また、トレーニング中に視聴覚マッピングを促進するために正則化損失を設計します。
AVSBench での定量的および定性的な実験では、関連するタスクのいくつかの既存の方法と私たちのアプローチを比較し、提案された方法がオーディオとピクセル単位の視覚セマンティクスの間のブリッジを構築するのに有望であることを示しています。
コードは https://github.com/OpenNLPLab/AVSBench で入手できます。
オンライン ベンチマークは、http://www.avlbench.opennlplab.cn で入手できます。

要約(オリジナル)

We propose a new problem called audio-visual segmentation (AVS), in which the goal is to output a pixel-level map of the object(s) that produce sound at the time of the image frame. To facilitate this research, we construct the first audio-visual segmentation benchmark, i.e., AVSBench, providing pixel-wise annotations for sounding objects in audible videos. It contains three subsets: AVSBench-object (Single-source subset, Multi-sources subset) and AVSBench-semantic (Semantic-labels subset). Accordingly, three settings are studied: 1) semi-supervised audio-visual segmentation with a single sound source; 2) fully-supervised audio-visual segmentation with multiple sound sources, and 3) fully-supervised audio-visual semantic segmentation. The first two settings need to generate binary masks of sounding objects indicating pixels corresponding to the audio, while the third setting further requires generating semantic maps indicating the object category. To deal with these problems, we propose a new baseline method that uses a temporal pixel-wise audio-visual interaction module to inject audio semantics as guidance for the visual segmentation process. We also design a regularization loss to encourage audio-visual mapping during training. Quantitative and qualitative experiments on AVSBench compare our approach to several existing methods for related tasks, demonstrating that the proposed method is promising for building a bridge between the audio and pixel-wise visual semantics. Code is available at https://github.com/OpenNLPLab/AVSBench. Online benchmark is available at http://www.avlbench.opennlplab.cn.

arxiv情報

著者 Jinxing Zhou,Xuyang Shen,Jianyuan Wang,Jiayi Zhang,Weixuan Sun,Jing Zhang,Stan Birchfield,Dan Guo,Lingpeng Kong,Meng Wang,Yiran Zhong
発行日 2023-01-30 18:53:32+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク