Zero-shot Visual Question Answering with Language Model Feedback

要約

この論文では、知識ベースの視覚的質問応答 (VQA) のための新しい言語モデル誘導キャプション アプローチ、LAMOC を提案します。
私たちのアプローチでは、キャプション モデルによって生成されたキャプションを、事前トレーニング済み言語モデル (PLM) である回答予測モデルのコンテキストとして使用します。
主な貢献として、予測モデルのガイダンスとフィードバックを活用して、キャプション モデルの機能を向上させています。
このようにして、キャプション モデルは、PLM からのタスクの目標と必要な情報を認識できるようになります。
アプローチを開発するために、2 つの特定のトレーニング ステージを設計します。第 1 ステージではキャプション モデルを予測モデルに適応させ (トレーニングに適したキャプション提案を選択)、第 2 ステージではタスクの目標に従ってキャプション モデルを調整します (フィードバックから学習)
PLM の)。
広範な実験により、知識ベースの VQA タスクに対する提案されたアプローチの有効性が実証されました。
具体的には、困難な A-OKVQA データセットにおいて、LAMOC はいくつかの競合するゼロショット手法を上回り、さらには微調整された VLP モデルと同等の結果を達成します。
私たちのコードは https://github.com/RUCAIBox/LAMOC で公開されています。

要約(オリジナル)

In this paper, we propose a novel language model guided captioning approach, LAMOC, for knowledge-based visual question answering (VQA). Our approach employs the generated captions by a captioning model as the context of an answer prediction model, which is a Pre-trained Language model (PLM). As the major contribution, we leverage the guidance and feedback of the prediction model to improve the capability of the captioning model. In this way, the captioning model can become aware of the task goal and information need from the PLM. To develop our approach, we design two specific training stages, where the first stage adapts the captioning model to the prediction model (selecting more suitable caption propositions for training) and the second stage tunes the captioning model according to the task goal (learning from feedback of the PLM). Extensive experiments demonstrate the effectiveness of the proposed approach on the knowledge-based VQA task. Specifically, on the challenging A-OKVQA dataset, LAMOC outperforms several competitive zero-shot methods and even achieves comparable results to a fine-tuned VLP model. Our code is publicly available at https://github.com/RUCAIBox/LAMOC.

arxiv情報

著者 Yifan Du,Junyi Li,Tianyi Tang,Wayne Xin Zhao,Ji-Rong Wen
発行日 2023-05-26 15:04:20+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CV パーマリンク