ViCor: Bridging Visual Understanding and Commonsense Reasoning with Large Language Models

要約

私たちの研究では、視覚的常識推論 (VCR) の問題に対する、事前にトレーニングされた視覚言語モデル (VLM) と大規模言語モデル (LLM) の相乗効果を調査します。
VLM および LLM ベースの意思決定パイプラインは、さまざまな種類の VCR の問題に適していることがわかりました。
事前トレーニングされた VLM は、視覚的常識理解 (VCU) と呼ばれる文字通りの視覚的内容の理解に関わる問題に対して強力なパフォーマンスを示します。
画像の内容を超えて結論を推測することを目標とする問題 (視覚的常識推論 (VCI) と指摘しました) では、VLM は困難に直面しますが、十分な視覚的証拠があれば、LLM は常識を使って答えをうまく推測できます。
LLM に VCR の問題をこれら 2 つのカテゴリに分類させることで、これを経験的に検証し、2 つのサブ問題に関する VLM と画像キャプション決定パイプラインを備えた LLM の大きな違いを示します。
さらに、VLM の受動的な認識に問題があり、重要なコンテキスト情報が見逃され、LLM による誤った推論につながる可能性があることがわかりました。
これらに基づいて、ViCor という名前の協調アプローチを提案します。このアプローチでは、事前トレーニングされた LLM が問題分類子として機能して問題カテゴリを分析し、VLM を使用して質問に直接答えるか、VLM に関連する視覚要素に集中して収集するよう積極的に指示します。
潜在的な常識的な推論をサポートします。
私たちは 2 つの VCR ベンチマーク データセットでフレームワークを評価し、ドメイン内での微調整を必要としない他のすべての方法よりも優れたパフォーマンスを示しました。

要約(オリジナル)

In our work, we explore the synergistic capabilities of pre-trained vision-and-language models (VLMs) and large language models (LLMs) on visual commonsense reasoning (VCR) problems. We find that VLMs and LLMs-based decision pipelines are good at different kinds of VCR problems. Pre-trained VLMs exhibit strong performance for problems involving understanding the literal visual content, which we noted as visual commonsense understanding (VCU). For problems where the goal is to infer conclusions beyond image content, which we noted as visual commonsense inference (VCI), VLMs face difficulties, while LLMs, given sufficient visual evidence, can use commonsense to infer the answer well. We empirically validate this by letting LLMs classify VCR problems into these two categories and show the significant difference between VLM and LLM with image caption decision pipelines on two subproblems. Moreover, we identify a challenge with VLMs’ passive perception, which may miss crucial context information, leading to incorrect reasoning by LLMs. Based on these, we suggest a collaborative approach, named ViCor, where pre-trained LLMs serve as problem classifiers to analyze the problem category, then either use VLMs to answer the question directly or actively instruct VLMs to concentrate on and gather relevant visual elements to support potential commonsense inferences. We evaluate our framework on two VCR benchmark datasets and outperform all other methods that do not require in-domain fine-tuning.

arxiv情報

著者 Kaiwen Zhou,Kwonjoon Lee,Teruhisa Misu,Xin Eric Wang
発行日 2024-05-17 17:24:35+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CV パーマリンク