要約
知識ベースの視覚的質問応答 (VQA) には、正しい答えを得るために画像を超えた世界の知識を必要とする質問が含まれます。
GPT-3 のような大規模な言語モデル (LM) は、強力な知識検索および推論機能を備えているため、このタスクに特に役立ちます。
LM が画像を理解できるようにするために、以前の作業ではキャプション モデルを使用して画像をテキストに変換していました。
ただし、画像を 1 つのキャプション センテンスに要約する場合、どの視覚的エンティティを説明するかが特定されないことがよくあります。
一般的な画像キャプションでは、LM が視覚的な質問に正しく答えるために不可欠な視覚的な詳細が欠けていることがよくあります。
この課題に対処するために、画像とブラックボックス LM の間のより良いコネクタとして機能するように設計されたキャプション モデルである PromptCap (Prompt-guided image Captioning) を提案します。
一般的なキャプションとは異なり、PromptCap は自然言語プロンプトを使用して、生成されたキャプションで説明するビジュアル エンティティを制御します。
プロンプトには、キャプションが回答に役立つ質問が含まれています。
余分な注釈を避けるために、PromptCap は GPT-3 と既存のデータセットで合成された例によってトレーニングされます。
GPT-3 が画像キャプションで VQA を実行するように促される既存のパイプラインで、PromptCap の有効性を実証します。
PromptCap は一般的なキャプションよりも大幅に優れており、知識ベースの VQA タスクで最先端の精度を達成しています (OK-VQA で 60.4%、A-OKVQA で 59.6%)。
WebQA のゼロ ショットの結果は、PromptCap が目に見えないドメインにうまく一般化することを示しています。
要約(オリジナル)
Knowledge-based visual question answering (VQA) involves questions that require world knowledge beyond the image to yield the correct answer. Large language models (LMs) like GPT-3 are particularly helpful for this task because of their strong knowledge retrieval and reasoning capabilities. To enable LM to understand images, prior work uses a captioning model to convert images into text. However, when summarizing an image in a single caption sentence, which visual entities to describe are often underspecified. Generic image captions often miss visual details essential for the LM to answer visual questions correctly. To address this challenge, we propose PromptCap (Prompt-guided image Captioning), a captioning model designed to serve as a better connector between images and black-box LMs. Different from generic captions, PromptCap takes a natural-language prompt to control the visual entities to describe in the generated caption. The prompt contains a question that the caption should aid in answering. To avoid extra annotation, PromptCap is trained by examples synthesized with GPT-3 and existing datasets. We demonstrate PromptCap’s effectiveness on an existing pipeline in which GPT-3 is prompted with image captions to carry out VQA. PromptCap outperforms generic captions by a large margin and achieves state-of-the-art accuracy on knowledge-based VQA tasks (60.4% on OK-VQA and 59.6% on A-OKVQA). Zero-shot results on WebQA show that PromptCap generalizes well to unseen domains.
arxiv情報
著者 | Yushi Hu,Hang Hua,Zhengyuan Yang,Weijia Shi,Noah A. Smith,Jiebo Luo |
発行日 | 2023-03-28 11:14:23+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google