Filling the Image Information Gap for VQA: Prompting Large Language Models to Proactively Ask Questions

要約

大規模言語モデル (LLM) は、自然言語タスクだけでなく、オープンドメイン知識ベースの視覚的質問応答 (OK-VQA) などの一部の視覚言語タスクでも、優れた推論能力と世界知識の維持を実証します。
LLM には画像が見えないため、研究者は画像をテキストに変換して、LLM を視覚的な質問推論手順に参加させます。
これにより、LLM に提示される画像とそのテキスト表現との間に不一致が生じ、最終的な推論のパフォーマンスが妨げられます。
情報のギャップを埋め、推論能力をより有効に活用するために、生成された情報を絞り込むためのフィルターとともに、LLM が関連する質問を積極的に行って画像の詳細を明らかにできるフレームワークを設計します。
OK-VQA と A-OKVQA に関するアイデアを検証します。
私たちの手法は、ベースライン手法のパフォーマンスを OK-VQA で平均 2.15% 向上させ続け、さまざまな LLM にわたって一貫した改善を達成します。

要約(オリジナル)

Large Language Models (LLMs) demonstrate impressive reasoning ability and the maintenance of world knowledge not only in natural language tasks, but also in some vision-language tasks such as open-domain knowledge-based visual question answering (OK-VQA). As images are invisible to LLMs, researchers convert images to text to engage LLMs into the visual question reasoning procedure. This leads to discrepancies between images and their textual representations presented to LLMs, which consequently impedes final reasoning performance. To fill the information gap and better leverage the reasoning capability, we design a framework that enables LLMs to proactively ask relevant questions to unveil more details in the image, along with filters for refining the generated information. We validate our idea on OK-VQA and A-OKVQA. Our method continuously boosts the performance of baselines methods by an average gain of 2.15% on OK-VQA, and achieves consistent improvements across different LLMs.

arxiv情報

著者 Ziyue Wang,Chi Chen,Peng Li,Yang Liu
発行日 2023-11-20 08:23:39+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク