See, Think, Confirm: Interactive Prompting Between Vision and Language Models for Knowledge-based Visual Reasoning

要約

大規模な事前トレーニング済みのビジョンおよび言語モデルは、さまざまなタスクに対して驚くべき能力を発揮しています。
ただし、知識ベースの視覚的推論タスクを解決することは依然として困難であり、画像コンテンツを包括的に理解し、外界の知識を結び付け、質問に正しく答えるために段階的な推論を実行するモデルが必要です。
この目的のために、数ショットの知識ベースの視覚的推論のための Interactive Prompting Visual Reasoner (IPVR) という新しいフレームワークを提案します。
IPVRには、見る、考える、確認するという3つの段階があります。
参照段階では、画像をスキャンし、視覚概念の候補を視覚認知モデルに基づいて決定します。
思考段階では、事前にトレーニングされた大規模言語モデル (LLM) を採用して、候補者からの主要な概念に適応的に対応します。
次に、それらをテキスト コンテキストに変換して、視覚的なキャプション モデルでプロンプトを表示し、LLM を採用して回答を生成します。
確認段階ではさらに、LLM を使用して、回答を裏付ける根拠を生成し、生成された根拠をモダリティ間分類子で検証し、根拠が予測された出力を一貫して推測できることを確認します。
さまざまな知識ベースの視覚的推論データセットで実験を行います。
当社の IPVR にはいくつかの利点があることがわかりました 1)。
以前の数ショット学習ベースラインよりも優れたパフォーマンスを達成します。
2)。
各推論ステップに根拠を提供することにより、推論プロセス全体の完全な透明性と信頼性を享受します。
3)。
他の微調整ベースラインと比較して、計算効率が高くなります。

要約(オリジナル)

Large pre-trained vision and language models have demonstrated remarkable capacities for various tasks. However, solving the knowledge-based visual reasoning tasks remains challenging, which requires a model to comprehensively understand image content, connect the external world knowledge, and perform step-by-step reasoning to answer the questions correctly. To this end, we propose a novel framework named Interactive Prompting Visual Reasoner (IPVR) for few-shot knowledge-based visual reasoning. IPVR contains three stages, see, think and confirm. The see stage scans the image and grounds the visual concept candidates with a visual perception model. The think stage adopts a pre-trained large language model (LLM) to attend to the key concepts from candidates adaptively. It then transforms them into text context for prompting with a visual captioning model and adopts the LLM to generate the answer. The confirm stage further uses the LLM to generate the supporting rationale to the answer, verify the generated rationale with a cross-modality classifier and ensure that the rationale can infer the predicted output consistently. We conduct experiments on a range of knowledge-based visual reasoning datasets. We found our IPVR enjoys several benefits, 1). it achieves better performance than the previous few-shot learning baselines; 2). it enjoys the total transparency and trustworthiness of the whole reasoning process by providing rationales for each reasoning step; 3). it is computation-efficient compared with other fine-tuning baselines.

arxiv情報

著者 Zhenfang Chen,Qinhong Zhou,Yikang Shen,Yining Hong,Hao Zhang,Chuang Gan
発行日 2023-01-12 18:59:50+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CV, cs.LG パーマリンク