II-MMR: Identifying and Improving Multi-modal Multi-hop Reasoning in Visual Question Answering

要約

視覚的質問応答(VQA)は、視覚と言語(V&L)にまたがる多様な推論シナリオを含むことが多い。しかし、VQAの先行研究のほとんどは、異なる推論ケースで評価することなく、モデルの全体的な精度を評価することに焦点を当てている。さらに、いくつかの最近の研究では、従来の思考連鎖(CoT)プロンプトは、特にマルチホップ推論を必要とする複雑なシナリオの場合、VQAのための効果的な推論を生成できないことが観察されている。本論文では、VQAにおけるマルチモーダルなマルチホップ推論を識別し、改善するための新しいアイデアであるII-MMRを提案する。具体的には、II-MMRは画像を含むVQAの質問を受け取り、(i)回答予測ガイド付きCoTプロンプト、または(ii)知識トリプレットガイドプロンプトの2つの新しい言語プロンプトを用いて、その答えに到達するための推論パスを見つける。次に、II-MMRはこの経路を解析し、質問に答えるために必要な推論のホップ数や種類(視覚的、視覚的以外)を推定することで、現在のVQAベンチマークにおける様々な推論ケースを特定する。GQAやA-OKVQAを含む一般的なベンチマークにおいて、II-MMRは、そのVQA問題のほとんどが、「シングルホップ」推論を要求するだけで、簡単に答えられるのに対し、「マルチホップ」推論を要求する問題はわずかであることを観察している。さらに、最近のV&Lモデルは、伝統的なCoT法を用いても、このような複雑なマルチホップ推論問題に苦戦しているが、II-MMRは、ゼロショットと微調整の両方の設定で、すべての推論ケースにわたってその有効性を示している。

要約(オリジナル)

Visual Question Answering (VQA) often involves diverse reasoning scenarios across Vision and Language (V&L). Most prior VQA studies, however, have merely focused on assessing the model’s overall accuracy without evaluating it on different reasoning cases. Furthermore, some recent works observe that conventional Chain-of-Thought (CoT) prompting fails to generate effective reasoning for VQA, especially for complex scenarios requiring multi-hop reasoning. In this paper, we propose II-MMR, a novel idea to identify and improve multi-modal multi-hop reasoning in VQA. In specific, II-MMR takes a VQA question with an image and finds a reasoning path to reach its answer using two novel language promptings: (i) answer prediction-guided CoT prompt, or (ii) knowledge triplet-guided prompt. II-MMR then analyzes this path to identify different reasoning cases in current VQA benchmarks by estimating how many hops and what types (i.e., visual or beyond-visual) of reasoning are required to answer the question. On popular benchmarks including GQA and A-OKVQA, II-MMR observes that most of their VQA questions are easy to answer, simply demanding ‘single-hop’ reasoning, whereas only a few questions require ‘multi-hop’ reasoning. Moreover, while the recent V&L model struggles with such complex multi-hop reasoning questions even using the traditional CoT method, II-MMR shows its effectiveness across all reasoning cases in both zero-shot and fine-tuning settings.

arxiv情報

著者 Jihyung Kil,Farideh Tavazoee,Dongyeop Kang,Joo-Kyung Kim
発行日 2024-06-03 01:09:38+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CL, cs.CV パーマリンク