Probing Conceptual Understanding of Large Visual-Language Models

要約

【タイトル】
大規模な画像と言語のモデルの概念的理解の検証

【要約】
本論文では、大規模な画像と言語のモデル(V + L)の関係性、合成性、文脈理解の検証と改良のための新しいフレームワークを提案する。大規模なV + Lモデルは、様々な下流タスクで成功を収めているが、内容の概念的理解を持っているかどうかは明らかではない。我々は、3つの内容理解の側面を検査するための新しいベンチマークデータセットを提案する。我々のプローブは、認知科学に根ざし、例えば雪に男性が添えられたものが不可能であることを判断できるか、または浜辺にある家具を判別できるかを決定するために役立つ。我々は、CLIPやViLTなどの5つのよく知られたモデルを実験し、それらが概念的理解を示すのはほとんど失敗することを発見した。その一方で、クロスアテンションは概念的理解を学習するのに役立つという興味深い洞察が得られた。これらの知見を用いて、我々は、提案した3つの概念的理解測定値を報酬とする、新しいフィントゥーニングテクニックを提案する。我々は、提示されたベンチマークが、大規模なV + Lモデルの概念的理解能力を評価し、改善するためにコミュニティに役立つことを願っている。

要約(オリジナル)

We present a novel framework for probing and improving relational, compositional and contextual understanding of large visual-language models (V+L). While large V+L models have achieved success in various downstream tasks, it is not clear if they have a conceptual grasp of the content. We propose a novel benchmarking dataset for probing three aspects of content understanding. Our probes are grounded in cognitive science and help determine if a V+L model can, for example, determine if snow garnished with a man is implausible, or if it can identify beach furniture by knowing it is located on a beach. We have experimented with 5 well known models, such as CLIP and ViLT, and found that they mostly fail to demonstrate a conceptual understanding. That said, we find interesting insights such as cross-attention helps learning conceptual understanding. We use these insights to propose a new finetuning technique that rewards the three conceptual understanding measures we proposed. We hope that the presented benchmarks will help the community assess and improve the conceptual understanding capabilities of large V+L models.

arxiv情報

著者 Madeline Chantry Schiappa,Michael Cogswell,Ajay Divakaran,Yogesh Singh Rawat
発行日 2023-04-07 14:26:11+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.CV パーマリンク