Unraveling Instance Associations: A Closer Look for Audio-Visual Segmentation

要約

視聴覚セグメンテーション (AVS) は、視聴覚キューに基づいて音を発するオブジェクトを正確にセグメント化するという困難なタスクです。
視聴覚学習の有効性は、音と視覚オブジェクト間の正確なクロスモーダル調整を達成できるかどうかに大きく依存します。
視聴覚学習を成功させるには、2 つの重要なコンポーネントが必要です。1) 音声ファイルに関連付けられた高品質のピクセルレベルのマルチクラスアノテーション付き画像を含むやりがいのあるデータセット、2) 音声情報とそれに対応する視覚オブジェクトとの間に強力なリンクを確立できるモデル
。
ただし、これらの要件は、偏った視聴覚データを含むトレーニングセットと、この偏ったトレーニングセットを超えると一般化が不十分なモデルを使用する現在の方法では部分的にしか対処されていません。
この研究では、挑戦的で比較的偏りのない高品質のオーディオビジュアルセグメンテーションベンチマークを構築するための、新しい費用対効果の高い戦略を提案します。
また、識別対照サンプルを活用してクロスモーダル理解を強化する、視聴覚教師付き対照学習のための新しい有益なサンプルマイニング方法を提案します。
ベンチマークの有効性を示す実証結果を示します。
さらに、既存の AVS データセットと新しいベンチマークで行われた実験は、私たちの方法が最先端 (SOTA) のセグメンテーション精度を達成していることを示しています。

要約(オリジナル)

Audio-visual segmentation (AVS) is a challenging task that involves accurately segmenting sounding objects based on audio-visual cues. The effectiveness of audio-visual learning critically depends on achieving accurate cross-modal alignment between sound and visual objects. Successful audio-visual learning requires two essential components: 1) a challenging dataset with high-quality pixel-level multi-class annotated images associated with audio files, and 2) a model that can establish strong links between audio information and its corresponding visual object. However, these requirements are only partially addressed by current methods, with training sets containing biased audio-visual data, and models that generalise poorly beyond this biased training set. In this work, we propose a new cost-effective strategy to build challenging and relatively unbiased high-quality audio-visual segmentation benchmarks. We also propose a new informative sample mining method for audio-visual supervised contrastive learning to leverage discriminative contrastive samples to enforce cross-modal understanding. We show empirical results that demonstrate the effectiveness of our benchmark. Furthermore, experiments conducted on existing AVS datasets and on our new benchmark show that our method achieves state-of-the-art (SOTA) segmentation accuracy.

arxiv情報

著者	Yuanhong Chen,Yuyuan Liu,Hu Wang,Fengbei Liu,Chong Wang,Helen Frazer,Gustavo Carneiro
発行日	2024-03-25 08:50:42+00:00
arxivサイト	arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

Unraveling Instance Associations: A Closer Look for Audio-Visual Segmentation

要約

要約(オリジナル)

arxiv情報

提供元, 利用サービス

最近の投稿

最近のコメント

アーカイブ

カテゴリー