If CLIP Could Talk: Understanding Vision-Language Model Representations Through Their Preferred Concept Descriptions

要約

最近の研究では、視覚言語モデル (VLM) 表現が形状などの視覚的属性に基づいていると仮定することがよくあります。
ただし、VLM が概念を表すためにこの情報をどの程度優先するかは不明です。
我々は、VLM の重要なテキスト特徴を特徴付ける新しいアプローチである Extract and Explore (EX2) を提案します。
EX2 は、強化学習を使用して大規模な言語モデルを VLM 設定に合わせて調整し、VLM の重要な機能を組み込んだ記述を生成します。
次に、記述を検査して、VLM 表現に寄与する機能を特定します。
有益な情報が提供されていないにもかかわらず、偽の説明が VLM 表現において大きな役割を果たしていることがわかりました (例: CONCEPT の写真をクリックして拡大)。
さらに重要なことは、有益な記述の中でも、VLM は視覚的な概念を表現するために生息地などの非視覚的属性に大きく依存していることです。
また、私たちの分析では、異なる VLM がその表現において異なる属性を優先していることが明らかになりました。
全体として、VLM は単に画像とシーンの説明を一致させるだけではなく、非視覚的または偽の説明が VLM の表現に大きな影響を与えることを示します。

要約(オリジナル)

Recent works often assume that Vision-Language Model (VLM) representations are based on visual attributes like shape. However, it is unclear to what extent VLMs prioritize this information to represent concepts. We propose Extract and Explore (EX2), a novel approach to characterize important textual features for VLMs. EX2 uses reinforcement learning to align a large language model with VLM preferences and generates descriptions that incorporate the important features for the VLM. Then, we inspect the descriptions to identify the features that contribute to VLM representations. We find that spurious descriptions have a major role in VLM representations despite providing no helpful information, e.g., Click to enlarge photo of CONCEPT. More importantly, among informative descriptions, VLMs rely significantly on non-visual attributes like habitat to represent visual concepts. Also, our analysis reveals that different VLMs prioritize different attributes in their representations. Overall, we show that VLMs do not simply match images to scene descriptions and that non-visual or even spurious descriptions significantly influence their representations.

arxiv情報

著者 Reza Esfandiarpoor,Cristina Menghini,Stephen H. Bach
発行日 2024-03-25 06:05:50+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CV, cs.LG パーマリンク