Masking Strategies for Background Bias Removal in Computer Vision Models

要約

一部のクラス間の違いが非常に微妙であり、クラスあたりのサンプル数が少ない傾向にある、きめの細かい画像分類タスクのモデルは、特に背景関連のバイアスを拾いやすいため、潜在的な例を処理するための堅牢な方法が必要です。
配布外 (OOD) の背景。
この重大な問題についてより深い洞察を得るために、私たちの研究では、畳み込みニューラル ネットワーク (CNN) やビジョン トランスフォーマー (ViT) などの標準的なバックボーン モデルを評価し、詳細な画像分類に対する背景に起因するバイアスの影響を調査しています。
背景に起因するバイアスを軽減するための 2 つのマスキング戦略を検討します。1 つは (入力) 画像レベルで背景情報を除去する早期マスキング、もう 1 つは背景に対応する高レベルの空間特徴を選択的にマスクする後期マスキングです。
OOD バックグラウンドへの一般化に焦点を当て、さまざまなマスキング戦略の下での CNN モデルと ViT モデルの動作を広範な実験で評価します。
得られた結果は、提案された両方の戦略がベースライン モデルと比較して OOD パフォーマンスを向上させ、初期のマスキングが一貫して最高の OOD パフォーマンスを示していることを示しています。
特に、GAP プール パッチ トークン ベースの分類と初期マスキングを組み合わせた ViT バリアントは、最高の OOD 堅牢性を実現します。

要約(オリジナル)

Models for fine-grained image classification tasks, where the difference between some classes can be extremely subtle and the number of samples per class tends to be low, are particularly prone to picking up background-related biases and demand robust methods to handle potential examples with out-of-distribution (OOD) backgrounds. To gain deeper insights into this critical problem, our research investigates the impact of background-induced bias on fine-grained image classification, evaluating standard backbone models such as Convolutional Neural Network (CNN) and Vision Transformers (ViT). We explore two masking strategies to mitigate background-induced bias: Early masking, which removes background information at the (input) image level, and late masking, which selectively masks high-level spatial features corresponding to the background. Extensive experiments assess the behavior of CNN and ViT models under different masking strategies, with a focus on their generalization to OOD backgrounds. The obtained findings demonstrate that both proposed strategies enhance OOD performance compared to the baseline models, with early masking consistently exhibiting the best OOD performance. Notably, a ViT variant employing GAP-Pooled Patch token-based classification combined with early masking achieves the highest OOD robustness.

arxiv情報

著者 Ananthu Aniraj,Cassio F. Dantas,Dino Ienco,Diego Marcos
発行日 2023-08-23 13:33:39+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG パーマリンク