Prompting Large Language Models with Answer Heuristics for Knowledge-based Visual Question Answering

要約

知識ベースの視覚的質問応答(VQA)は、質問に答えるために画像以外の外部知識を必要とします。初期の研究では、必要な知識を明示的な知識ベース(KB)から取得しましたが、これはしばしば質問に無関係な情報を導入するため、モデルの性能を制限していました。最近の研究では、GPT-3のような大規模な言語モデルを暗黙の知識エンジンとして使用し、質問に答えるために必要な知識を取得することを試みています。しかし、これらの手法では、入力情報が不十分であるため、GPT-3の能力を十分に発揮できていないことが指摘されている。本論文では、知識ベースVQAのために、GPT-3に回答ヒューリスティックを促すための概念的にシンプルなフレームワークであるProphetを紹介する。具体的には、まず、知識ベースVQAのデータセットに対して、外部からの知識がないバニラVQAモデルを学習させる。その後、モデルから2種類の補完的な回答ヒューリスティック(回答候補と回答認識例)を抽出する。最後に、GPT-3がタスクをよりよく理解できるように、2種類の回答ヒューリスティックをプロンプトにエンコードし、その能力を向上させます。Prophetは、知識ベースのVQAデータセットであるOK-VQAとA-OKVQAにおいて、それぞれ61.1%と55.7%の精度を達成し、既存の最先端手法を大きく上回った。

要約(オリジナル)

Knowledge-based visual question answering (VQA) requires external knowledge beyond the image to answer the question. Early studies retrieve required knowledge from explicit knowledge bases (KBs), which often introduces irrelevant information to the question, hence restricting the performance of their models. Recent works have sought to use a large language model (i.e., GPT-3) as an implicit knowledge engine to acquire the necessary knowledge for answering. Despite the encouraging results achieved by these methods, we argue that they have not fully activated the capacity of GPT-3 as the provided input information is insufficient. In this paper, we present Prophet — a conceptually simple framework designed to prompt GPT-3 with answer heuristics for knowledge-based VQA. Specifically, we first train a vanilla VQA model on a specific knowledge-based VQA dataset without external knowledge. After that, we extract two types of complementary answer heuristics from the model: answer candidates and answer-aware examples. Finally, the two types of answer heuristics are encoded into the prompts to enable GPT-3 to better comprehend the task thus enhancing its capacity. Prophet significantly outperforms all existing state-of-the-art methods on two challenging knowledge-based VQA datasets, OK-VQA and A-OKVQA, delivering 61.1% and 55.7% accuracies on their testing sets, respectively.

arxiv情報

著者 Zhenwei Shao,Zhou Yu,Meng Wang,Jun Yu
発行日 2023-03-03 13:05:15+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CL, cs.CV, cs.LG パーマリンク