Two Effects, One Trigger: On the Modality Gap, Object Bias, and Information Imbalance in Contrastive Vision-Language Models

要約

CLIP のような対照的視覚言語モデル (VLM) は、さまざまな下流タスクに多用途に適用できるため人気が高まっています。
ゼロショット物体認識などの一部のタスクでは成功したにもかかわらず、属性認識などの他のタスクでは驚くほどパフォーマンスが悪くなります。
これまでの研究では、これらの課題はモダリティのギャップ、共有表現空間における画像とテキストの分離、および属性などの他の要素よりもオブジェクトへの偏りが原因であるとされていました。
この分析論文では、両方の現象を徹底的に調査します。
既製の VLM を評価したところ、パフォーマンスに対するギャップの影響は通常、他の要因によって影が薄くなりますが、ギャップを埋めることが実際に改善につながる兆候が見出されました。
さらに、直観に反して、わずかな埋め込み次元のみがギャップを駆動し、埋め込み空間が異なって構成されていることがわかりました。
オブジェクトバイアスの明確な研究を可能にするために、その定義と対応する尺度を導入します。
このツールを使用すると、オブジェクトのバイアスが属性自体などの他の概念のパフォーマンスの低下につながることはないことがわかります。
しかし、そもそもなぜモダリティギャップとオブジェクトバイアスという両方の現象が現れるのでしょうか?
この基本的な質問に答え、対照的な VLM の内部動作の一部を明らかにするために、私たちはモダリティ間で共有される情報の量を制御できる実験を実施しました。
これらの実験により、モダリティギャップとオブジェクトバイアスの両方の背後にある要因は、画像とキャプションの間の情報の不均衡であることが明らかになり、モダリティギャップとロジットのエントロピーとの間の興味深い関係が明らかになりました。

要約(オリジナル)

Contrastive vision-language models (VLMs), like CLIP, have gained popularity for their versatile applicability to various downstream tasks. Despite their successes in some tasks, like zero-shot object recognition, they perform surprisingly poor on other tasks, like attribute recognition. Previous work has attributed these challenges to the modality gap, a separation of image and text in the shared representation space, and to a bias towards objects over other factors, such as attributes. In this analysis paper, we investigate both phenomena thoroughly. We evaluated off-the-shelf VLMs and find that while the gap’s influence on performance is typically overshadowed by other factors, we find indications that closing the gap indeed leads to improvements. Moreover, we find that, contrary to intuition, only few embedding dimensions drive the gap and that the embedding spaces are differently organized. To allow for a clean study of object bias, we introduce a definition and a corresponding measure of it. Equipped with this tool, we find that object bias does not lead to worse performance on other concepts, such as attributes per se. However, why do both phenomena, modality gap and object bias, emerge in the first place? To answer this fundamental question and uncover some of the inner workings of contrastive VLMs, we conducted experiments that allowed us to control the amount of shared information between the modalities. These experiments revealed that the driving factor behind both the modality gap and the object bias, is an information imbalance between images and captions, and unveiled an intriguing connection between the modality gap and entropy of the logits.

arxiv情報

著者 Simon Schrodi,David T. Hoffmann,Max Argus,Volker Fischer,Thomas Brox
発行日 2024-10-10 17:58:49+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG パーマリンク