Improving Zero-shot Visual Question Answering via Large Language Models with Reasoning Question Prompts

要約

ゼロショット視覚質問応答 (VQA) は、トレーニング データがない場合のシステムの視覚的およびテキスト理解能力の両方を検査する、著名な視覚言語タスクです。
最近では、画像をキャプションに変換することで、マルチモダリティにわたる情報が橋渡しされ、大規模言語モデル (LLM) の強力なゼロショット汎化機能を目に見えない質問に適用できるようになりました。
LLM を介して VQA を解決するための理想的なプロンプトを設計するために、いくつかの研究では、LLM が現在の質問に効果的に答えるように導く、模範的なプロンプトとして質問と回答のペアを選択または生成するためのさまざまな戦略が検討されています。
しかし、彼らは質問プロンプトの役割を完全に無視しています。
VQA タスクの元の質問では、通常、省略や曖昧さが発生し、中間の推論が必要になります。
この目的を達成するために、ゼロショット シナリオで LLM の可能性をさらに活性化できる、VQA タスクの推論質問プロンプトを提供します。
具体的には、各質問について、まず、文章の流暢性、意味上の整合性、構文上の不変性を考慮した教師なし質問編集モジュールを介して、推論質問プロンプトとして自己完結型の質問を生成します。
推論に関する各質問プロンプトは、元の質問の意図を明確に示しています。
これにより、一連の回答候補が得られます。
次に、回答ヒューリスティックとして機能する信頼度スコアに関連付けられた回答候補が LLM に入力され、最終的な回答が生成されます。
3 つの VQA 課題について推論質問プロンプトを評価しました。実験結果では、ゼロショット設定での LLM の結果が大幅に向上し、4 つのデータセットのうち 3 つで既存の最先端のゼロショット手法を上回るパフォーマンスを発揮できることが実証されました。
私たちのソースコードは \url{https://github.com/ECNU-DASE-NLP/RQP} で公開されています。

要約(オリジナル)

Zero-shot Visual Question Answering (VQA) is a prominent vision-language task that examines both the visual and textual understanding capability of systems in the absence of training data. Recently, by converting the images into captions, information across multi-modalities is bridged and Large Language Models (LLMs) can apply their strong zero-shot generalization capability to unseen questions. To design ideal prompts for solving VQA via LLMs, several studies have explored different strategies to select or generate question-answer pairs as the exemplar prompts, which guide LLMs to answer the current questions effectively. However, they totally ignore the role of question prompts. The original questions in VQA tasks usually encounter ellipses and ambiguity which require intermediate reasoning. To this end, we present Reasoning Question Prompts for VQA tasks, which can further activate the potential of LLMs in zero-shot scenarios. Specifically, for each question, we first generate self-contained questions as reasoning question prompts via an unsupervised question edition module considering sentence fluency, semantic integrity and syntactic invariance. Each reasoning question prompt clearly indicates the intent of the original question. This results in a set of candidate answers. Then, the candidate answers associated with their confidence scores acting as answer heuristics are fed into LLMs and produce the final answer. We evaluate reasoning question prompts on three VQA challenges, experimental results demonstrate that they can significantly improve the results of LLMs on zero-shot setting and outperform existing state-of-the-art zero-shot methods on three out of four data sets. Our source code is publicly released at \url{https://github.com/ECNU-DASE-NLP/RQP}.

arxiv情報

著者 Yunshi Lan,Xiang Li,Xin Liu,Yang Li,Wei Qin,Weining Qian
発行日 2023-11-15 15:40:46+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV パーマリンク