Enhancing Visual Question Answering through Question-Driven Image Captions as Prompts

要約

ビジュアル質問応答 (VQA) は、ビジョンと言語の内容についての理解、推論、推論が必要なため、AI で完結するタスクとして知られています。
過去数年間にわたって、VQA 問題に対して多数のニューラル アーキテクチャが提案されてきました。
ただし、ゼロショット VQA では高度な一般化スキルと推論スキルが要求されるため、成功することは依然として課題です。
この調査では、VQA パイプライン内の中間プロセスとして画像キャプションを組み込むことの影響を調査しています。
具体的には、画像の代わりに画像キャプションを利用し、大規模言語モデル (LLM) を活用してゼロショット設定を確立することの有効性を調査します。
画像キャプションはこのプロセスで最も重要なステップであるため、構造とセマンティクスの観点から、さまざまな種類の質問にわたって、最先端の画像キャプション モデルが VQA パフォーマンスに与える影響を比較します。
私たちは、コンテキスト情報を質問応答 (QA) モデルに転送するために、このパイプライン内で直接的かつ効率的な質問駆動型の画像キャプション アプローチを提案します。
この方法には、質問からキーワードを抽出し、そのキーワードを使用して画像と質問のペアごとにキャプションを生成し、質問主導のキャプションを LLM プロンプトに組み込むことが含まれます。
VQA パイプラインで汎用および質問主導の画像キャプションを使用する有効性を評価します。
私たちの研究は、画像キャプションを採用し、LLM の機能を活用して、ゼロショット設定の下で GQA で競争力のあるパフォーマンスを達成する可能性を強調しています。
コードは \url{https://github.com/ovguyo/captions-in-VQA} で入手できます。

要約(オリジナル)

Visual question answering (VQA) is known as an AI-complete task as it requires understanding, reasoning, and inferring about the vision and the language content. Over the past few years, numerous neural architectures have been suggested for the VQA problem. However, achieving success in zero-shot VQA remains a challenge due to its requirement for advanced generalization and reasoning skills. This study explores the impact of incorporating image captioning as an intermediary process within the VQA pipeline. Specifically, we explore the efficacy of utilizing image captions instead of images and leveraging large language models (LLMs) to establish a zero-shot setting. Since image captioning is the most crucial step in this process, we compare the impact of state-of-the-art image captioning models on VQA performance across various question types in terms of structure and semantics. We propose a straightforward and efficient question-driven image captioning approach within this pipeline to transfer contextual information into the question-answering (QA) model. This method involves extracting keywords from the question, generating a caption for each image-question pair using the keywords, and incorporating the question-driven caption into the LLM prompt. We evaluate the efficacy of using general-purpose and question-driven image captions in the VQA pipeline. Our study highlights the potential of employing image captions and harnessing the capabilities of LLMs to achieve competitive performance on GQA under the zero-shot setting. Our code is available at \url{https://github.com/ovguyo/captions-in-VQA}.

arxiv情報

著者 Övgü Özdemir,Erdem Akagündüz
発行日 2024-04-12 16:35:23+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV パーマリンク