Unveiling and Mitigating Bias in Audio Visual Segmentation

要約

コミュニティの研究者たちは、音響オブジェクトのマスクの品質を向上させることを目的とした、さまざまな高度なオーディオビジュアルセグメンテーションモデルを開発しました。
これらのモデルによって作成されたマスクは、最初はもっともらしいように見えますが、誤った接地ロジックによる異常を示す場合があります。
私たちはこれを、重要なモダリティ情報の無視につながる複雑な視聴覚基礎よりも学習のための単純な信号としての現実世界の固有の好みと分布に起因すると考えています。
一般に、異常現象は複雑であることが多く、体系的に直接観測することができません。
本研究では、適切な合成データを用いて、異常の原因に応じて現象を「音声プライミングバイアス」と「視覚事前バイアス」の2種類に分類して分析する先駆的な取り組みを行いました。
オーディオプライミングバイアスの場合、さまざまな強度やセマンティクスに対するオーディオの感度を高めるために、オーディオ専用の認識モジュールが潜在的なセマンティクス情報を認識し、限られたクエリセット、つまりアクティブなクエリに情報を組み込みます。
さらに、トランスフォーマー デコーダー内のそのようなアクティブなクエリに関連する対話メカニズムは、オーディオ セマンティクス間の対話を調整する必要性に適応するようにカスタマイズされています。
視覚的な事前学習の場合、モデルの構造を変更することなく、バイアスされたブランチを組み込むことによってモデルを最適化するために、複数の対照的なトレーニング戦略が検討されます。
実験中に、観察により、既存のモデルのバイアスによって生じた存在と影響が実証されます。
最後に、AVS ベンチマークの実験的評価を通じて、両方のタイプのバイアスを処理し、3 つのサブセットすべてにわたって競争力のあるパフォーマンスを達成する際の手法の有効性を実証します。

要約(オリジナル)

Community researchers have developed a range of advanced audio-visual segmentation models aimed at improving the quality of sounding objects’ masks. While masks created by these models may initially appear plausible, they occasionally exhibit anomalies with incorrect grounding logic. We attribute this to real-world inherent preferences and distributions as a simpler signal for learning than the complex audio-visual grounding, which leads to the disregard of important modality information. Generally, the anomalous phenomena are often complex and cannot be directly observed systematically. In this study, we made a pioneering effort with the proper synthetic data to categorize and analyze phenomena as two types ‘audio priming bias’ and ‘visual prior’ according to the source of anomalies. For audio priming bias, to enhance audio sensitivity to different intensities and semantics, a perception module specifically for audio perceives the latent semantic information and incorporates information into a limited set of queries, namely active queries. Moreover, the interaction mechanism related to such active queries in the transformer decoder is customized to adapt to the need for interaction regulating among audio semantics. For visual prior, multiple contrastive training strategies are explored to optimize the model by incorporating a biased branch, without even changing the structure of the model. During experiments, observation demonstrates the presence and the impact that has been produced by the biases of the existing model. Finally, through experimental evaluation of AVS benchmarks, we demonstrate the effectiveness of our methods in handling both types of biases, achieving competitive performance across all three subsets.

arxiv情報

著者 Peiwen Sun,Honggang Zhang,Di Hu
発行日 2024-07-23 16:55:04+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク