CLEVR-POC: Reasoning-Intensive Visual Question Answering in Partially Observable Environments

要約

学習と推論の統合は、AI の研究課題の上位にあります。
それにもかかわらず、部分的に観察されたシーンについての推論に既存の背景知識を使用して、そのシーンに関する質問に答えることについては、ほとんど注意が払われていません。
しかし、私たち人間は、そのような知識を頻繁に使用して、視覚的な質問に対するもっともらしい答えを推測します(一貫性のない質問をすべて排除することによって)。
このような知識は多くの場合、オブジェクトに関する制約の形で提供され、ドメインまたは環境に非常に固有になる傾向があります。
私たちは、制約のある部分的に観察可能な環境における推論集中型の視覚的質問応答 (VQA) のために、CLEVR-POC と呼ばれる新しいベンチマークを提供します。
CLEVR-POC では、論理制約の形での知識を活用して、特定の部分シーン内の隠れたオブジェクトに関する質問に対するもっともらしい回答を生成する必要があります。
たとえば、すべてのカップが赤、緑、または青のいずれかに着色されており、緑のカップは 1 つだけであるという知識があれば、他のすべてのカップの色が赤か青であると推測することが可能になります。
、緑色のものを含めて観察されます。
実験を通じて、CLEVR-POC 上の CLIP などの事前トレーニング済みビジョン言語モデル (~ 22%) や GPT-4 のような大規模言語モデル (LLM) (~ 46%) のパフォーマンスが低いことが観察され、以下のフレームワークの必要性が確認されています。
環境固有の背景知識が利用可能で重要な、推論集中型のタスクを処理できる。
さらに、私たちのデモンストレーションは、GPT-4 のような LLM を視覚認識ネットワークおよび形式的論理推論と統合した神経記号モデルが CLEVR-POC 上で優れたパフォーマンスを発揮することを示しています。

要約(オリジナル)

The integration of learning and reasoning is high on the research agenda in AI. Nevertheless, there is only a little attention to use existing background knowledge for reasoning about partially observed scenes to answer questions about the scene. Yet, we as humans use such knowledge frequently to infer plausible answers to visual questions (by eliminating all inconsistent ones). Such knowledge often comes in the form of constraints about objects and it tends to be highly domain or environment-specific. We contribute a novel benchmark called CLEVR-POC for reasoning-intensive visual question answering (VQA) in partially observable environments under constraints. In CLEVR-POC, knowledge in the form of logical constraints needs to be leveraged to generate plausible answers to questions about a hidden object in a given partial scene. For instance, if one has the knowledge that all cups are colored either red, green or blue and that there is only one green cup, it becomes possible to deduce the color of an occluded cup as either red or blue, provided that all other cups, including the green one, are observed. Through experiments, we observe that the low performance of pre-trained vision language models like CLIP (~ 22%) and a large language model (LLM) like GPT-4 (~ 46%) on CLEVR-POC ascertains the necessity for frameworks that can handle reasoning-intensive tasks where environment-specific background knowledge is available and crucial. Furthermore, our demonstration illustrates that a neuro-symbolic model, which integrates an LLM like GPT-4 with a visual perception network and a formal logical reasoner, exhibits exceptional performance on CLEVR-POC.

arxiv情報

著者 Savitha Sam Abraham,Marjan Alirezaie,Luc De Raedt
発行日 2024-03-05 18:41:37+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI パーマリンク