More Context, Less Distraction: Visual Classification by Inferring and Conditioning on Contextual Attributes

要約

CLIP は、基礎的なビジョン言語モデルとして、さまざまな視覚概念と自然言語の説明を理解できるため、ゼロショット画像分類に広く使用されています。
ただし、CLIP の前例のない人間のような理解能力を最大限に活用して、より優れたゼロショット分類を実現する方法はまだ未解決の問題です。
この論文は、人間の視覚認識プロセスからインスピレーションを得ています。現代の神経科学の見解では、人間は物体を分類する際に、まず前景の物体を背景から分離するのに役立つクラスに依存しない属性 (背景や方向など) を推論し、その後、次のことを行うと示唆しています。
この情報に基づいて意思決定を行います。
これにヒントを得て、CLIP にコンテキスト属性を提供すると、ゼロショット分類が改善され、偽の特徴への依存が軽減されることがわかりました。
また、CLIP 自体が画像から属性を合理的に推測できることも観察されています。
これらの観察に基づいて、PerceptionCLIP と呼ばれる、トレーニング不要の 2 ステップのゼロショット分類法を提案します。
画像が与えられると、まずコンテキスト属性 (背景など) を推測し、次にそれらに対してオブジェクト分類条件付けを実行します。
私たちの実験では、PerceptionCLIP がより優れた一般化、グループの堅牢性、およびより優れた解釈可能性を実現していることが示されています。
たとえば、ViT-L/14 を使用した PerceptionCLIP は、最悪のグループ精度を Waterbirds データセットで 16.5%、CelebA で 3.5% 改善します。

要約(オリジナル)

CLIP, as a foundational vision language model, is widely used in zero-shot image classification due to its ability to understand various visual concepts and natural language descriptions. However, how to fully leverage CLIP’s unprecedented human-like understanding capabilities to achieve better zero-shot classification is still an open question. This paper draws inspiration from the human visual perception process: a modern neuroscience view suggests that in classifying an object, humans first infer its class-independent attributes (e.g., background and orientation) which help separate the foreground object from the background, and then make decisions based on this information. Inspired by this, we observe that providing CLIP with contextual attributes improves zero-shot classification and mitigates reliance on spurious features. We also observe that CLIP itself can reasonably infer the attributes from an image. With these observations, we propose a training-free, two-step zero-shot classification method named PerceptionCLIP. Given an image, it first infers contextual attributes (e.g., background) and then performs object classification conditioning on them. Our experiments show that PerceptionCLIP achieves better generalization, group robustness, and better interpretability. For example, PerceptionCLIP with ViT-L/14 improves the worst group accuracy by 16.5% on the Waterbirds dataset and by 3.5% on CelebA.

arxiv情報

著者 Bang An,Sicheng Zhu,Michael-Andrei Panaitescu-Liess,Chaithanya Kumar Mummadi,Furong Huang
発行日 2023-08-02 17:57:25+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CV, cs.LG パーマリンク