Help Me Identify: Is an LLM+VQA System All We Need to Identify Visual Concepts?

要約

少量の視覚データから新しいオブジェクトについて学習し、新しいシナリオにおける特定の概念 (集合的にオブジェクトを構成する) の有無について説得力のある言語的正当化を生み出す能力は、人間の認知の重要な特性です。
これは、オブジェクトを構成する属性/プロパティの抽象化によって可能になります。
オブジェクト「鳥」は、くちばし、羽、足、翼などの存在によって識別できます。人間の推論のこの側面に触発されたこの作品では、私たちは、
大規模な言語モデルと Visual Question Answering (VQA) システムを活用します。
具体的には、GPT-3 に、データセット内の視覚オブジェクトの豊富な言語記述を取得するよう促します。
取得した概念の説明を一連の二項質問に変換します。
これらの質問をクエリ画像とともに VQA システムに提示し、回答を集計してテスト画像内のオブジェクトの有無を判断します。
私たちの実験は、既存のゼロショット視覚分類法や少数ショット概念学習アプローチと同等のパフォーマンスを示し、大幅な計算オーバーヘッドがなく、推論の観点から完全に説明可能です。

要約(オリジナル)

An ability to learn about new objects from a small amount of visual data and produce convincing linguistic justification about the presence/absence of certain concepts (that collectively compose the object) in novel scenarios is an important characteristic of human cognition. This is possible due to abstraction of attributes/properties that an object is composed of e.g. an object `bird’ can be identified by the presence of a beak, feathers, legs, wings, etc. Inspired by this aspect of human reasoning, in this work, we present a zero-shot framework for fine-grained visual concept learning by leveraging large language model and Visual Question Answering (VQA) system. Specifically, we prompt GPT-3 to obtain a rich linguistic description of visual objects in the dataset. We convert the obtained concept descriptions into a set of binary questions. We pose these questions along with the query image to a VQA system and aggregate the answers to determine the presence or absence of an object in the test images. Our experiments demonstrate comparable performance with existing zero-shot visual classification methods and few-shot concept learning approaches, without substantial computational overhead, yet being fully explainable from the reasoning perspective.

arxiv情報

著者 Shailaja Keyur Sampat,Maitreya Patel,Yezhou Yang,Chitta Baral
発行日 2024-10-17 15:16:10+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク