Adaptive Contextual Perception: How to Generalize to New Backgrounds and Ambiguous Objects

要約

生物視覚システムは、コンテキストを適応的に利用して、新しいコンテキストを持つ新しい環境のオブジェクトだけでなく、見慣れた環境の遮蔽されたオブジェクトやぼやけたオブジェクトも認識します。
このペーパーでは、ビジョン モデルが配布外 (OOD) 一般化のためにコンテキストをどのように適応的に使用するかを調査し、分析結果を活用してモデルの OOD 一般化を改善します。
まず、生物学的視覚で直面する多様なコンテキスト上の課題を反映して、コンテキストが無関係 (背景の不変性) または有益な (オブジェクトの曖昧さの解消) のいずれかである 2 つの異なる OOD 設定を定式化します。
次に、これら 2 つの異なる OOD 設定でモデルのパフォーマンスを分析し、一方の設定で優れたモデルがもう一方の設定では苦戦する傾向があることを示します。
特に、因果的特徴の学習に関するこれまでの研究では、1 つの設定では改善されましたが、もう 1 つの設定では悪影響を及ぼしました。
これは、人間の認知と堅牢な AI システムの両方にとってこの機能が重要であるため、両方の OOD 設定にわたって一般化することの重要性を強調しています。
次に、OOD の一般化に寄与するモデルのプロパティをより深く理解するために、表現幾何学解析と独自の精査手法を使用してモデルの母集団を調査しました。その結果、より因数分解された表現と適切な特徴の重み付けを持つモデルが背景の処理でより成功していることがわかりました。
不変性テストとオブジェクト曖昧さ回避テスト。
さらに、パフォーマンスに対する因果関係を実証するために、表現因数分解と特徴の重み付けに対する因果的介入を通じてこれらの発見を検証します。
最後に、モデルの一般化を強化するための新しい拡張方法を提案します。
これらの方法は強力なベースラインを上回り、ディストリビューション内テストと OOD テストの両方で改善をもたらします。
結論として、生物学的視覚の汎化能力を再現するには、コンピューター ビジョン モデルが物体と背景を因数分解して表現し、両方の種類の特徴に適切に重み付けする必要があります。

要約(オリジナル)

Biological vision systems make adaptive use of context to recognize objects in new settings with novel contexts as well as occluded or blurry objects in familiar settings. In this paper, we investigate how vision models adaptively use context for out-of-distribution (OOD) generalization and leverage our analysis results to improve model OOD generalization. First, we formulate two distinct OOD settings where the contexts are either irrelevant (Background-Invariance) or beneficial (Object-Disambiguation), reflecting the diverse contextual challenges faced in biological vision. We then analyze model performance in these two different OOD settings and demonstrate that models that excel in one setting tend to struggle in the other. Notably, prior works on learning causal features improve on one setting but hurt in the other. This underscores the importance of generalizing across both OOD settings, as this ability is crucial for both human cognition and robust AI systems. Next, to better understand the model properties contributing to OOD generalization, we use representational geometry analysis and our own probing methods to examine a population of models, and we discover that those with more factorized representations and appropriate feature weighting are more successful in handling Background-Invariance and Object-Disambiguation tests. We further validate these findings through causal intervention on representation factorization and feature weighting to demonstrate their causal effect on performance. Lastly, we propose new augmentation methods to enhance model generalization. These methods outperform strong baselines, yielding improvements in both in-distribution and OOD tests. In conclusion, to replicate the generalization abilities of biological vision, computer vision models must have factorized object vs. background representations and appropriately weight both kinds of features.

arxiv情報

著者 Zhuofan Ying,Peter Hase,Mohit Bansal
発行日 2023-06-09 15:29:54+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG パーマリンク