Learning Invariant Causal Mechanism from Vision-Language Models

要約

CLIP などの大規模な事前トレーニング済み視覚言語モデルは、さまざまな下流シナリオに広く適用されています。
実際のアプリケーションでは、CLIP モデルはトレーニング中に遭遇したシナリオよりもさらに多様なシナリオで利用されることが多く、これは配布外 (OOD) 問題として知られる課題です。
ただし、私たちの実験では、CLIP が特定のドメインで満足のいくパフォーマンスを発揮しないことが明らかになりました。
因果関係分析を通じて、CLIP の現在の予測プロセスでは OOD リスクの低さを保証できないことがわかりました。
予測プロセスが不変の因果メカニズムに基づいている場合、つまり不変の潜在的要因のみに基づいて予測する場合、OOD リスクを最も低く抑えることができます。
ただし、理論分析では、CLIP はこれらの不変の潜在要因を特定できないことが示されています。
したがって、我々は、まず介入データを使用して不変の潜在要因を特定し、次にさまざまなドメインにわたって不変の予測を実行するフレームワークである、CLIP 用の不変因果メカニズム (CLIP-ICM) を提案します。
私たちの方法は単純ですが効果的であり、大きな計算オーバーヘッドはありません。
実験結果は、CLIP-ICM が OOD シナリオにおける CLIP のパフォーマンスを大幅に向上させることを示しています。

要約(オリジナル)

Large-scale pre-trained vision-language models such as CLIP have been widely applied to a variety of downstream scenarios. In real-world applications, the CLIP model is often utilized in more diverse scenarios than those encountered during its training, a challenge known as the out-of-distribution (OOD) problem. However, our experiments reveal that CLIP performs unsatisfactorily in certain domains. Through a causal analysis, we find that CLIP’s current prediction process cannot guarantee a low OOD risk. The lowest OOD risk can be achieved when the prediction process is based on invariant causal mechanisms, i.e., predicting solely based on invariant latent factors. However, theoretical analysis indicates that CLIP does not identify these invariant latent factors. Therefore, we propose the Invariant Causal Mechanism for CLIP (CLIP-ICM), a framework that first identifies invariant latent factors using interventional data and then performs invariant predictions across various domains. Our method is simple yet effective, without significant computational overhead. Experimental results demonstrate that CLIP-ICM significantly improves CLIP’s performance in OOD scenarios.

arxiv情報

著者 Zeen Song,Siyu Zhao,Xingyu Zhang,Jiangmeng Li,Changwen Zheng,Wenwen Qiang
発行日 2024-08-12 10:53:03+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク