Two Effects, One Trigger: On the Modality Gap, Object Bias, and Information Imbalance in Contrastive Vision-Language Representation Learning

要約

CLIP のような対照的な視覚言語モデルは、さまざまな下流タスクで多用途に適用可能な学習表現として人気を集めています。
ゼロショット画像認識などの一部のタスクでは成功しますが、属性検出などの他のタスクでは驚くほどパフォーマンスが悪くなります。
これまでの研究では、これらの課題はモダリティのギャップ、共有表現空間における画像とテキストの分離、属性などの他の要素よりもオブジェクトへの偏りが原因であるとされてきました。
この研究では、両方の現象を調査します。
わずかな埋め込み次元だけがモダリティギャップを引き起こすことがわかりました。
さらに、オブジェクトのバイアスの尺度を提案し、オブジェクトのバイアスが属性などの他の概念のパフォーマンスの低下につながらないことを発見しました。
しかし、何がモダリティギャップとオブジェクトバイアスの出現につながるのでしょうか?
この質問に答えるために、私たちはモダリティ間で共有される情報の量を制御できる実験設定を慎重に設計しました。
これにより、モダリティギャップとオブジェクトバイアスの両方の背後にある要因は、画像とキャプションの間の情報の不均衡であることが明らかになりました。

要約(オリジナル)

Contrastive vision-language models like CLIP have gained popularity for their versatile applicable learned representations in various downstream tasks. Despite their successes in some tasks, like zero-shot image recognition, they also perform surprisingly poor on other tasks, like attribute detection. Previous work has attributed these challenges to the modality gap, a separation of image and text in the shared representation space, and a bias towards objects over other factors, such as attributes. In this work we investigate both phenomena. We find that only a few embedding dimensions drive the modality gap. Further, we propose a measure for object bias and find that object bias does not lead to worse performance on other concepts, such as attributes. But what leads to the emergence of the modality gap and object bias? To answer this question we carefully designed an experimental setting which allows us to control the amount of shared information between the modalities. This revealed that the driving factor behind both, the modality gap and the object bias, is the information imbalance between images and captions.

arxiv情報

著者 Simon Schrodi,David T. Hoffmann,Max Argus,Volker Fischer,Thomas Brox
発行日 2024-04-11 17:58:06+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG パーマリンク