Q&A Prompts: Discovering Rich Visual Clues through Mining Question-Answer Prompts for VQA requiring Diverse World Knowledge

要約

マルチモーダルな大規模言語モデルの画期的な進歩により、高度な推論能力と世界の知識を必要とする複雑な視覚的な質問に答えることが、AI モデル開発のテストベッドとしてこれまで以上に重要になっています。
しかし、人間の認知スキームは体系的に理解されていないため、AI モデルに堅牢なクロスモダリティ推論能力を装備することは依然として困難です。
この論文では、与えられた画像内の視覚的な手がかりをできるだけ多く収集できれば、画像をより正確に認識し、質問をよりよく理解し、関連する知識をより簡単に思い出し、最終的に答えを推論できると考えています。
画像内の質問と回答のペアをマイニングし、それらをプロンプトとしてマルチモーダルな大規模言語モデルに送信することで、これらの豊富な視覚的手がかりを発見します。
提案された方法を Q&A プロンプトと呼びます。
具体的には、まずトレーニング セット内の画像と回答のペアと対応する質問を入力および出力として使用し、視覚的な質問生成モデルをトレーニングします。
次に、画像タグ付けモデルを使用してさまざまなインスタンスを識別し、パッケージ化された画像タグのペアを視覚的な質問生成モデルに送信して、抽出された画像タグを回答として含む関連する質問を生成します。
最後に、これらの生成された質問と回答のペアを、視覚的なプロンプト モジュールを使用してプロンプトとしてエンコードし、事前にトレーニングされたマルチモーダル大規模言語モデルに送信して、最終的な回答を推論します。
実験結果は、最先端の方法と比較して、当社の Q&A プロンプトは、OK-VQA や A-OKVQA など、多様な世界知識に基づく推論を必要とする、挑戦的な視覚的質問応答データセットで大幅な改善を達成していることを示しています。

要約(オリジナル)

With the breakthrough of multi-modal large language models, answering complex visual questions that demand advanced reasoning abilities and world knowledge has become a much more important testbed for developing AI models than ever. However, equipping AI models with robust cross-modality reasoning ability remains challenging since the cognition scheme of humans has not been understood systematically. In this paper, we believe that if we can collect visual clues in the given image as much as possible, we will recognize the image more accurately, understand the question better, recall relevant knowledge more easily, and finally reason out the answer. We discover these rich visual clues by mining question-answer pairs in images and sending them into multi-modal large language models as prompts. We call the proposed method Q&A Prompts. Specifically, we first use the image-answer pairs and the corresponding questions in the training set as inputs and outputs to train a visual question generation model. Then, we use an image tagging model to identify various instances and send packaged image-tag pairs into the visual question generation model to generate relevant questions with the extracted image tags as answers. Finally, we encode these generated question-answer pairs as prompts with a visual-aware prompting module and send them into pre-trained multi-modal large language models to reason out the final answers. Experimental results show that, compared with state-of-the-art methods, our Q&A Prompts achieves substantial improvements on the challenging visual question answering datasets requiring reasoning over diverse world knowledge, such as OK-VQA and A-OKVQA.

arxiv情報

著者 Haibi Wang,Weifeng Ge
発行日 2024-03-06 12:51:11+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CV パーマリンク