要約
CLIP などの大規模ビジョン言語モデル (VLM) は基盤となり、さまざまな下流タスクにわたって目覚ましい成功を収めています。
これらのモデルは、その利点にもかかわらず、他の基本的なシステムと同様に、現実世界のデータの不均衡な分布からバイアスを受け継ぎ、実際の環境についての誤解につながります。
ImageNet などの普及しているデータセットには、多くの場合、因果関係のない偽りの相関関係が多数存在し、これらのコンテキスト要素が存在しないシナリオでは VLM のパフォーマンスが低下する可能性があります。
この研究では、シンプルな線形プローブが、下流アプリケーション向けに CLIP の埋め込みからタスク固有のコア機能を効果的に抽出する方法についての調査を紹介します。
私たちの分析により、CLIP テキスト表現は、偏った事前トレーニング データセットに継承された偽の相関によって汚染されていることが多いことが明らかになりました。
経験的証拠は、VLM の歪んだ認識を改善するには、テキストの埋め込みではなく、CLIP からの視覚表現に依存する方がより現実的であることを示唆しており、埋め込まれたバイアスを克服する上で視覚表現の優れた有用性が強調されています。
コードはここから入手できます。
要約(オリジナル)
Large vision-language models (VLMs), such as CLIP, have become foundational, demonstrating remarkable success across a variety of downstream tasks. Despite their advantages, these models, akin to other foundational systems, inherit biases from the disproportionate distribution of real-world data, leading to misconceptions about the actual environment. Prevalent datasets like ImageNet are often riddled with non-causal, spurious correlations that can diminish VLM performance in scenarios where these contextual elements are absent. This study presents an investigation into how a simple linear probe can effectively distill task-specific core features from CLIP’s embedding for downstream applications. Our analysis reveals that the CLIP text representations are often tainted by spurious correlations, inherited in the biased pre-training dataset. Empirical evidence suggests that relying on visual representations from CLIP, as opposed to text embedding, is more practical to refine the skewed perceptions in VLMs, emphasizing the superior utility of visual representations in overcoming embedded biases. Our codes will be available here.
arxiv情報
著者 | Haocheng Dai,Sarang Joshi |
発行日 | 2025-01-01 20:45:27+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google