ViCor: Bridging Visual Understanding and Commonsense Reasoning with Large Language Models

要約

私たちの研究では、視覚的常識推論 (VCR) のための事前トレーニング済み視覚言語モデル (VLM) と大規模言語モデル (LLM) の相乗効果を調査しています。
VCR の問題を視覚的常識理解 (VCU) と視覚的常識推論 (VCI) に分類します。
リテラルの視覚コンテンツの認識を伴う VCU の場合、事前トレーニングされた VLM はデータセット間の強力な一般化を示します。
一方、画像コンテンツを超えて結論を推測することが目標である VCI では、VLM は困難に直面します。
VLM が認識結果 (画像キャプション) を LLM に提供するベースラインが、VCI でのパフォーマンスの向上につながることがわかりました。
ただし、VLM の受動的な認識には重要なコンテキスト情報が見逃されることが多く、LLM による誤った推論や不確実な推論につながるという課題があることがわかっています。
この問題を軽減するために、LLM が推論に不確かな場合、潜在的な常識的な推論をサポートするために、関連する視覚要素に集中して収集するように VLM に積極的に指示する、協力的なアプローチを提案します。
ViCor と呼ばれる私たちのメソッドでは、事前トレーニングされた LLM が問題カテゴリを分析する問題分類子として機能し、VLM コマンダーが問題分類に基づいて VLM をさまざまに活用し、視覚的常識推論者が質問に答える役割を果たします。
VLM は視覚的な認識と理解を実行します。
私たちは 2 つの VCR ベンチマーク データセットでフレームワークを評価し、ドメイン内の監視付き微調整を必要としない他のすべての方法よりも優れたパフォーマンスを示しました。

要約(オリジナル)

In our work, we explore the synergistic capabilities of pre-trained vision-and-language models (VLMs) and large language models (LLMs) for visual commonsense reasoning (VCR). We categorize the problem of VCR into visual commonsense understanding (VCU) and visual commonsense inference (VCI). For VCU, which involves perceiving the literal visual content, pre-trained VLMs exhibit strong cross-dataset generalization. On the other hand, in VCI, where the goal is to infer conclusions beyond image content, VLMs face difficulties. We find that a baseline where VLMs provide perception results (image captions) to LLMs leads to improved performance on VCI. However, we identify a challenge with VLMs’ passive perception, which often misses crucial context information, leading to incorrect or uncertain reasoning by LLMs. To mitigate this issue, we suggest a collaborative approach where LLMs, when uncertain about their reasoning, actively direct VLMs to concentrate on and gather relevant visual elements to support potential commonsense inferences. In our method, named ViCor, pre-trained LLMs serve as problem classifiers to analyze the problem category, VLM commanders to leverage VLMs differently based on the problem classification, and visual commonsense reasoners to answer the question. VLMs will perform visual recognition and understanding. We evaluate our framework on two VCR benchmark datasets and outperform all other methods that do not require in-domain supervised fine-tuning.

arxiv情報

著者 Kaiwen Zhou,Kwonjoon Lee,Teruhisa Misu,Xin Eric Wang
発行日 2023-10-09 17:10:35+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CV パーマリンク