A Closer Look at Audio-Visual Semantic Segmentation

要約

タイトル:オーディオ・ビジュアルの意味のセグメンテーションについてのより詳細な調査
要約:
– オーディオ・ビジュアル・セグメンテーション(AVS)は、オーディオ・ビジュアルクエリに基づいて対応する音を正確にセグメンテーションする複雑なタスクである。
– 成功したオーディオ・ビジュアル学習には、高品質のピクセルレベルのマルチクラスラベルを持つ偏見のないデータセット、およびオーディオ情報を対応するビジュアルオブジェクトに効果的にリンクさせるモデルの2つの必要要件が必要である。
– 現在の方法では、この2つの要件は部分的にしか処理されていないため、偏りのあるオーディオ・ビジュアルデータを含むトレーニングセットと、この偏りのあるトレーニングセットを超えて適用されないモデルがある。
– この論文では、比較的偏見のないオーディオ・ビジュアル意味のセグメンテーション基準を構築するための新しい戦略を提案する。
– この戦略はVPOと呼ばれ、単一のビデオソースから抽出された明示的なオーディオ・ビジュアルペアを持つ必要がないことを探求しています。
– この論文は、新しいピクセル単位のオーディオ・ビジュアル対比学習方法を紹介し、トレーニングセットを超えたモデルのよりよい汎化を可能にします。
– 結果として、提案されたVPO基準とAVSBench-Single+を使用して、この方法はSOTAモデルよりも正確なオーディオ・ビジュアル意味セグメンテーションを生み出すことを示します。

要約(オリジナル)

Audio-visual segmentation (AVS) is a complex task that involves accurately segmenting the corresponding sounding object based on audio-visual queries. Successful audio-visual learning requires two essential components: 1) an unbiased dataset with high-quality pixel-level multi-class labels, and 2) a model capable of effectively linking audio information with its corresponding visual object. However, these two requirements are only partially addressed by current methods, with training sets containing biased audio-visual data, and models that generalise poorly beyond this biased training set. In this work, we propose a new strategy to build cost-effective and relatively unbiased audio-visual semantic segmentation benchmarks. Our strategy, called Visual Post-production (VPO), explores the observation that it is not necessary to have explicit audio-visual pairs extracted from single video sources to build such benchmarks. We also refine the previously proposed AVSBench to transform it into the audio-visual semantic segmentation benchmark AVSBench-Single+. Furthermore, this paper introduces a new pixel-wise audio-visual contrastive learning method to enable a better generalisation of the model beyond the training set. We verify the validity of the VPO strategy by showing that state-of-the-art (SOTA) models trained with datasets built by matching audio and visual data from different sources or with datasets containing audio and visual data from the same video source produce almost the same accuracy. Then, using the proposed VPO benchmarks and AVSBench-Single+, we show that our method produces more accurate audio-visual semantic segmentation than SOTA models. Code and dataset will be available.

arxiv情報

著者 Yuanhong Chen,Yuyuan Liu,Hu Wang,Fengbei Liu,Chong Wang,Gustavo Carneiro
発行日 2023-04-11 09:54:06+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.CV, cs.MM パーマリンク