PromptCap: Prompt-Guided Task-Aware Image Captioning

要約

知識ベースのビジュアル質問応答 (VQA) には、正しい答えを得るために画像を超えた世界の知識を必要とする質問が含まれます。
GPT-3 のような大規模言語モデル (LM) は、強力な知識検索機能と推論機能により、このタスクに特に役立ちます。
LM が画像を理解できるようにするために、以前の研究ではキャプション モデルを使用して画像をテキストに変換しました。
ただし、画像を 1 つのキャプション文で要約する場合、どの視覚的エンティティを説明するかが明確でないことがよくあります。
一般的な画像キャプションでは、LM が視覚的な質問に正しく答えるために不可欠な視覚的な詳細が欠けていることがよくあります。
この課題に対処するために、私たちは PromptCap (プロンプトガイド付き画像キャプション) を提案します。これは、画像とブラックボックス LM の間のより適切な接続として機能するように設計されたキャプション モデルです。
一般的なキャプションとは異なり、PromptCap は自然言語プロンプトを使用して、生成されたキャプションで説明する視覚エンティティを制御します。
プロンプトには質問が含まれており、キャプションはその答えに役立ちます。
余分なアノテーションを避けるために、PromptCap は GPT-3 と既存のデータセットで合成されたサンプルによってトレーニングされます。
GPT-3 が画像キャプションを使用して VQA を実行する既存のパイプラインで PromptCap の有効性を実証します。
PromptCap は一般的なキャプションを大幅に上回り、知識ベースの VQA タスクで最先端の精度を達成します (OK-VQA で 60.4%、A-OKVQA で 59.6%)。
WebQA のゼロショットの結果は、PromptCap が目に見えないドメインによく一般化していることを示しています。

要約(オリジナル)

Knowledge-based visual question answering (VQA) involves questions that require world knowledge beyond the image to yield the correct answer. Large language models (LMs) like GPT-3 are particularly helpful for this task because of their strong knowledge retrieval and reasoning capabilities. To enable LM to understand images, prior work uses a captioning model to convert images into text. However, when summarizing an image in a single caption sentence, which visual entities to describe are often underspecified. Generic image captions often miss visual details essential for the LM to answer visual questions correctly. To address this challenge, we propose PromptCap (Prompt-guided image Captioning), a captioning model designed to serve as a better connector between images and black-box LMs. Different from generic captions, PromptCap takes a natural-language prompt to control the visual entities to describe in the generated caption. The prompt contains a question that the caption should aid in answering. To avoid extra annotation, PromptCap is trained by examples synthesized with GPT-3 and existing datasets. We demonstrate PromptCap’s effectiveness on an existing pipeline in which GPT-3 is prompted with image captions to carry out VQA. PromptCap outperforms generic captions by a large margin and achieves state-of-the-art accuracy on knowledge-based VQA tasks (60.4% on OK-VQA and 59.6% on A-OKVQA). Zero-shot results on WebQA show that PromptCap generalizes well to unseen domains.

arxiv情報

著者 Yushi Hu,Hang Hua,Zhengyuan Yang,Weijia Shi,Noah A Smith,Jiebo Luo
発行日 2023-08-17 21:43:24+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CV パーマリンク