Rephrase, Augment, Reason: Visual Grounding of Questions for Vision-Language Models

要約

大規模言語モデル (LLM) をビジョン エンコーダに結合し、大規模ビジョン言語モデル (LVLM) を生成することで、トレーニングをほとんどまたはまったく行わずに、つまりゼロおよび数回のショットで処理できるビジョン言語タスクの数が増加しています。

これには、トレーニング データやカスタム アーキテクチャが必要ないなどの大きな利点がありますが、LVLM への入力の提示方法がゼロショット モデルのパフォーマンスに大きな影響を与える可能性があります。
特に、入力が不十分な方法で表現されている場合、視覚情報の欠落、複雑な暗黙の推論、言語の曖昧さなどの要因により、不正確な回答が生じる可能性があります。
したがって、先制的な明確化として視覚に基づいた情報を入力に追加すると、オブジェクトのローカライズや参照の曖昧さの解消などによって過小仕様が減少し、モデルのパフォーマンスが向上するはずです。
同様に、VQA 設定では、質問の構成方法を変更すると、モデルが回答しやすくなります。
この目的を達成するために、元の質問への変更を提案するために、基礎となる LVLM をキャプションおよび推論として使用して画像の顕著な詳細を抽出するグラデーションフリー フレームワークである RepARe (RepARe) を紹介します。
次に、生成された回答に対する LVLM の信頼度を教師なしスコア関数として使用し、ゼロショットのパフォーマンスを向上させる可能性が最も高い言い換え質問を選択します。
3 つの視覚的な質問応答タスクに焦点を当て、RepARe により、VQAv2 ではゼロショット精度が 3.85% (絶対) 増加し、A-OKVQA と VizWiz ではそれぞれ 6.41% および 7.94% ポイント増加する可能性があることを示します。
さらに、オラクルの質問候補の選択にゴールド アンサーを使用すると、VQA の精度が最大 14.41% 大幅に向上することがわかりました。
広範な分析を通じて、RepARe からの出力が構文の複雑さを増大させ、視覚と言語の相互作用と凍結された LLM を効果的に利用していることを実証しました。

要約(オリジナル)

An increasing number of vision-language tasks can be handled with little to no training, i.e., in a zero and few-shot manner, by marrying large language models (LLMs) to vision encoders, resulting in large vision-language models (LVLMs). While this has huge upsides, such as not requiring training data or custom architectures, how an input is presented to an LVLM can have a major impact on zero-shot model performance. In particular, inputs phrased in an underspecified way can result in incorrect answers due to factors like missing visual information, complex implicit reasoning, or linguistic ambiguity. Therefore, adding visually-grounded information to the input as a preemptive clarification should improve model performance by reducing underspecification, e.g., by localizing objects and disambiguating references. Similarly, in the VQA setting, changing the way questions are framed can make them easier for models to answer. To this end, we present Rephrase, Augment and Reason (RepARe), a gradient-free framework that extracts salient details about the image using the underlying LVLM as a captioner and reasoner, in order to propose modifications to the original question. We then use the LVLM’s confidence over a generated answer as an unsupervised scoring function to select the rephrased question most likely to improve zero-shot performance. Focusing on three visual question answering tasks, we show that RepARe can result in a 3.85% (absolute) increase in zero-shot accuracy on VQAv2, 6.41%, and 7.94% points increase on A-OKVQA, and VizWiz respectively. Additionally, we find that using gold answers for oracle question candidate selection achieves a substantial gain in VQA accuracy by up to 14.41%. Through extensive analysis, we demonstrate that outputs from RepARe increase syntactic complexity, and effectively utilize vision-language interaction and the frozen LLM.

arxiv情報

著者 Archiki Prasad,Elias Stengel-Eskin,Mohit Bansal
発行日 2024-04-02 17:37:42+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CV, cs.LG パーマリンク