A Closer Look at Audio-Visual Semantic Segmentation

要約

【タイトル】オーディオ・ビジュアルセマンティックセグメンテーションをより詳しく調べる
【要約】
– オーディオ・ビジュアルセグメンテーション(AVS)は、オーディオ・ビジュアルクエリに基づいて対応する音響オブジェクトを正確にセグメンテーションする複雑なタスクである。
– AVSの成功には、高品質なピクセルレベルのマルチクラスラベルを持つ無偏差データセットと、音声情報を対応する視覚オブジェクトに効果的にリンクするモデルの2つの要素が必要である。
– しかしながら、これら2つの要件は、現在の方法によって部分的にしか対処されていない。
– 本研究では、費用効果の高く、比較的偏りのないオーディオ・ビジュアルセマンティックセグメンテーションのベンチマークを構築する新しい戦略を提案している。
– 提案された戦略であるVisual Post-production(VPO)は、単一のビデオ源から明示的なオーディオ・ビジュアルペアを抽出する必要がないという観察結果を探求するものである。
– さらに、本論文では、新しいピクセルごとのオーディオ・ビジュアルコントラスティブ学習方法を紹介している。
– VPOベンチマークとAVSBench-Single+を使用して、提案手法がSOTAモデルよりも正確なオーディオ・ビジュアルセマンティックセグメンテーションを生成することを示している。
– コードとデータセットは公開される予定。

要約(オリジナル)

Audio-visual segmentation (AVS) is a complex task that involves accurately segmenting the corresponding sounding object based on audio-visual queries. Successful audio-visual learning requires two essential components: 1) an unbiased dataset with high-quality pixel-level multi-class labels, and 2) a model capable of effectively linking audio information with its corresponding visual object. However, these two requirements are only partially addressed by current methods, with training sets containing biased audio-visual data, and models that generalise poorly beyond this biased training set. In this work, we propose a new strategy to build cost-effective and relatively unbiased audio-visual semantic segmentation benchmarks. Our strategy, called Visual Post-production (VPO), explores the observation that it is not necessary to have explicit audio-visual pairs extracted from single video sources to build such benchmarks. We also refine the previously proposed AVSBench to transform it into the audio-visual semantic segmentation benchmark AVSBench-Single+. Furthermore, this paper introduces a new pixel-wise audio-visual contrastive learning method to enable a better generalisation of the model beyond the training set. We verify the validity of the VPO strategy by showing that state-of-the-art (SOTA) models trained with datasets built by matching audio and visual data from different sources or with datasets containing audio and visual data from the same video source produce almost the same accuracy. Then, using the proposed VPO benchmarks and AVSBench-Single+, we show that our method produces more accurate audio-visual semantic segmentation than SOTA models. Code and dataset will be available.

arxiv情報

著者 Chen Yuanhong,Liu Yuyuan,Wang Hu,Liu Fengbei,Wang Chong,Carneiro Gustavo
発行日 2023-04-06 09:54:06+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.CV, cs.MM パーマリンク