要約
CLIP などの大規模な視覚言語モデルは、ゼロショット画像分類と画像からテキストへの検索で印象的なパフォーマンスを示しています。
ただし、CLIP ベースのモデルのこのようなゼロ ショット パフォーマンスは、視覚的質問応答 (VQA) など、視覚と言語の間のより細かい対応を必要とするタスクでは実現されません。
これが事実である理由を調査し、VQA および同様のタスクに CLIP を適用することの困難さの潜在的な原因として、概念関連バイアス (CAB) と呼ばれる CLIP の興味深い現象を報告します。
CAB は、特定の画像に 2 つの概念が存在し、テキスト プロンプトには 1 つの概念しか含まれていない場合に特に顕著です。
このような場合、CLIP は入力を概念のバッグとして扱い、他の欠落している概念をクロスモーダルに埋めようとする傾向があり、予期しないゼロショット予測につながることがわかります。
たとえば、画像内のレモンの色を尋ねられた場合、画像にレモンとナスが含まれている場合、CLIP は「紫」と予測します。
オブジェクト (レモンなど) と属性 (色など) の間に強い概念の関連付けがある場合、CLIP のゼロショット分類のパフォーマンスが大幅に低下することを示すことで、CLIP の概念関連付けバイアスを示します。
一方、オブジェクトと属性の関連付けが弱い場合、この現象は見られません。
さらに、CLIPの上に追加のTransformerを追加し、VQAで微調整することにより、CLIPが画像とテキストの埋め込み全体でより深い構造を学習できるようにすると、CABが大幅に軽減されることを示しています.
このような微調整された CLIP のバリアント全体で、モデル内の CAB の強度が VQA でのパフォーマンスを予測することがわかりました。
要約(オリジナル)
Large-scale vision-language models such as CLIP have shown impressive performance on zero-shot image classification and image-to-text retrieval. However, such zero-shot performance of CLIP-based models does not realize in tasks that require a finer-grained correspondence between vision and language, such as Visual Question Answering (VQA). We investigate why this is the case, and report an interesting phenomenon of CLIP, which we call the Concept Association Bias (CAB), as a potential cause of the difficulty of applying CLIP to VQA and similar tasks. CAB is especially apparent when two concepts are present in the given image while a text prompt only contains a single concept. In such a case, we find that CLIP tends to treat input as a bag of concepts and attempts to fill in the other missing concept crossmodally, leading to an unexpected zero-shot prediction. For example, when asked for the color of a lemon in an image, CLIP predicts “purple” if the image contains a lemon and an eggplant. We demonstrate the Concept Association Bias of CLIP by showing that CLIP’s zero-shot classification performance greatly suffers when there is a strong concept association between an object (e.g. lemon) and an attribute (e.g. its color). On the other hand, when the association between object and attribute is weak, we do not see this phenomenon. Furthermore, we show that CAB is significantly mitigated when we enable CLIP to learn deeper structure across image and text embeddings by adding an additional Transformer on top of CLIP and fine-tuning it on VQA. We find that across such fine-tuned variants of CLIP, the strength of CAB in a model predicts how well it performs on VQA.
arxiv情報
著者 | Yutaro Yamada,Yingtian Tang,Ilker Yildirim |
発行日 | 2022-12-22 21:27:12+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google