Pre-trained Vision-Language Models Learn Discoverable Visual Concepts

要約

「ドリアン」の画像にキャプションを付けるように事前にトレーニングされた視覚言語モデル (VLM) は、「茶色」 (色) や「とがった」 (質感) などの視覚概念を同時に学習しますか?
私たちは、「無料」で学習した視覚的概念により、神経記号的推論や人間が解釈可能な物体分類などの幅広い応用が可能になるため、この質問に答えることを目指しています。
ビジュアルコンセプトは、事前にトレーニングされた VLM によってキャプチャされた場合、テキストベースのコンセプトプロンプトを備えたビジョン言語インターフェイスによって抽出できると想定しています。
VLM にコンセプトを促す最近の作品では、視覚的なコンセプトを定義および評価する戦略が異なることが多く、矛盾する結論につながることが観察されています。
我々は、2 つの観察に基づいて新しい概念定義戦略を提案します。まず、特定の概念プロンプトには、間違った理由で正しい概念を認識するショートカットが含まれています。
第二に、コンセプトを選択する際には、マルチモーダルな情報(視覚的識別力やテキスト知識など)を活用する必要があります。
したがって、私たちが提案する概念発見と学習(CDL)フレームワークは、視覚と言語の相互情報に基づいてランク付けされ、選択される一般的な視覚概念(たとえば、「スパイキーなドリアン」ではなく「スパイキー」)の多様なリストを識別するように設計されています。
私たちは、6 つの多様な視覚認識データセット上で、発見された概念の定量的および人間による評価を慎重に設計しています。これにより、事前トレーニングされた VLM が、認識されたオブジェクトを正確かつ徹底的に説明する視覚概念を学習することが確認されています。
すべてのコードとモデルは公開されています。

要約(オリジナル)

Do vision-language models (VLMs) pre-trained to caption an image of a ‘durian’ learn visual concepts such as ‘brown’ (color) and ‘spiky’ (texture) at the same time? We aim to answer this question as visual concepts learned ‘for free’ would enable wide applications such as neuro-symbolic reasoning or human-interpretable object classification. We assume that the visual concepts, if captured by pre-trained VLMs, can be extracted by their vision-language interface with text-based concept prompts. We observe that recent works prompting VLMs with concepts often differ in their strategies to define and evaluate the visual concepts, leading to conflicting conclusions. We propose a new concept definition strategy based on two observations: First, certain concept prompts include shortcuts that recognize correct concepts for wrong reasons; Second, multimodal information (e.g. visual discriminativeness, and textual knowledge) should be leveraged when selecting the concepts. Our proposed concept discovery and learning (CDL) framework is thus designed to identify a diverse list of generic visual concepts (e.g. ‘spiky’ as opposed to ‘spiky durian’), which are ranked and selected based on visual and language mutual information. We carefully design quantitative and human evaluations of the discovered concepts on six diverse visual recognition datasets, which confirm that pre-trained VLMs do learn visual concepts that provide accurate and thorough descriptions for the recognized objects. All code and models are publicly released.

arxiv情報

著者 Yuan Zang,Tian Yun,Hao Tan,Trung Bui,Chen Sun
発行日 2024-04-19 06:41:32+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CV, cs.LG パーマリンク