Rephrase, Augment, Reason: Visual Grounding of Questions for Vision-Language Models

要約

大規模言語モデル (LLM) をビジョン エンコーダに結合し、大規模ビジョン言語モデル (LVLM) を生成することで、トレーニングをほとんどまたはまったく行わずに、つまりゼロおよび数回のショットで処理できるビジョン言語タスクの数が増加しています。

これには、トレーニング データやカスタム アーキテクチャが必要ないなどの大きな利点がありますが、LVLM への入力の提示方法がゼロショット モデルのパフォーマンスに大きな影響を与える可能性があります。
特に、入力が不十分な方法で表現されている場合、視覚情報の欠落、複雑な暗黙の推論、言語の曖昧さなどの要因により、不正確な回答が生じる可能性があります。
したがって、事前の明確化として視覚的に根拠のある情報を入力に追加すると、オブジェクトの位置を特定したり参照の曖昧さを解消したりするなど、過小仕様が減り、モデルのパフォーマンスが向上するはずです。
同様に、VQA 設定では、質問の構成方法を変更すると、モデルが回答しやすくなります。
この目的を達成するために、元の質問への変更を提案するために、基礎となる LVLM をキャプションおよび推論として使用して画像の顕著な詳細を抽出するグラデーションフリー フレームワークである RepARe (RepARe) を紹介します。
次に、生成された回答に対する LVLM の信頼度を教師なしスコア関数として使用し、ゼロショットのパフォーマンスを向上させる可能性が最も高い言い換え質問を選択します。
2 つの視覚的な質問応答タスクに焦点を当て、RepARe により、VQAv2 ではゼロショット パフォーマンスが 3.85% (絶対) 向上し、A-OKVQA では 6.41% ポイント増加する可能性があることを示します。
さらに、オラクルの質問候補の選択にゴールド アンサーを使用すると、VQA の精度が最大 14.41% 大幅に向上することがわかりました。
広範な分析を通じて、RepARe からの出力が構文の複雑さを増大させ、視覚と言語の相互作用と LVLM の凍結された言語モデルを効果的に利用することを実証しました。

要約(オリジナル)

An increasing number of vision-language tasks can be handled with little to no training, i.e., in a zero and few-shot manner, by marrying large language models (LLMs) to vision encoders, resulting in large vision-language models (LVLMs). While this has huge upsides, such as not requiring training data or custom architectures, how an input is presented to a LVLM can have a major impact on zero-shot model performance. In particular, inputs phrased in an underspecified way can result in incorrect answers due to factors like missing visual information, complex implicit reasoning, or linguistic ambiguity. Therefore, adding visually grounded information to the input as a preemptive clarification should improve model performance by reducing underspecification, e.g., by localizing objects and disambiguating references. Similarly, in the VQA setting, changing the way questions are framed can make them easier for models to answer. To this end, we present Rephrase, Augment and Reason (RepARe), a gradient-free framework that extracts salient details about the image using the underlying LVLM as a captioner and reasoner, in order to propose modifications to the original question. We then use the LVLM’s confidence over a generated answer as an unsupervised scoring function to select the rephrased question most likely to improve zero-shot performance. Focusing on two visual question answering tasks, we show that RepARe can result in a 3.85% (absolute) increase in zero-shot performance on VQAv2 and a 6.41% point increase on A-OKVQA. Additionally, we find that using gold answers for oracle question candidate selection achieves a substantial gain in VQA accuracy by up to 14.41%. Through extensive analysis, we demonstrate that outputs from RepARe increase syntactic complexity, and effectively utilize vision-language interaction and the frozen language model in LVLMs.

arxiv情報

著者 Archiki Prasad,Elias Stengel-Eskin,Mohit Bansal
発行日 2023-10-09 16:57:57+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CV, cs.LG パーマリンク