Large Language Models are Visual Reasoning Coordinators

要約

視覚的推論には、多面的な認識と世界の常識的な認識が必要です。
最近、さまざまな分野で優れた常識推論能力を備えたマルチビジョン言語モデル (VLM) が提案されています。
ただし、これらの補完的な VLM の総合力を活用する方法はほとんど検討されていません。
アンサンブルなどの既存の手法では、これらのモデルを目的の高次通信と統合するのに依然として苦労しています。
この研究では、視覚的推論のために複数の VLM を調整する新しいパラダイムである Cola を提案します。
私たちの重要な洞察は、大規模言語モデル (LLM) は、それぞれの異なる補完的な機能を活用する自然言語コミュニケーションを促進することで、複数の VLM を効率的に調整できるということです。
広範な実験により、当社の命令チューニングのバリアントである Cola-FT が、視覚的質問応答 (VQA)、外部知識 VQA、視覚的含意、および視覚的空間推論タスクにおいて最先端のパフォーマンスを達成することが実証されました。
さらに、コンテキスト内学習のバリアントである Cola-Zero が、微調整を行わなくても、ゼロおよび少数ショット設定で競争力のあるパフォーマンスを発揮することを示します。
体系的なアブレーション研究と視覚化を通じて、コーディネーター LLM が指示プロンプトと VLM の個別の機能を実際に理解していることを検証します。
次に、それらを調整して、印象的な視覚的推論機能を可能にします。

要約(オリジナル)

Visual reasoning requires multimodal perception and commonsense cognition of the world. Recently, multiple vision-language models (VLMs) have been proposed with excellent commonsense reasoning ability in various domains. However, how to harness the collective power of these complementary VLMs is rarely explored. Existing methods like ensemble still struggle to aggregate these models with the desired higher-order communications. In this work, we propose Cola, a novel paradigm that coordinates multiple VLMs for visual reasoning. Our key insight is that a large language model (LLM) can efficiently coordinate multiple VLMs by facilitating natural language communication that leverages their distinct and complementary capabilities. Extensive experiments demonstrate that our instruction tuning variant, Cola-FT, achieves state-of-the-art performance on visual question answering (VQA), outside knowledge VQA, visual entailment, and visual spatial reasoning tasks. Moreover, we show that our in-context learning variant, Cola-Zero, exhibits competitive performance in zero and few-shot settings, without finetuning. Through systematic ablation studies and visualizations, we validate that a coordinator LLM indeed comprehends the instruction prompts as well as the separate functionalities of VLMs; it then coordinates them to enable impressive visual reasoning capabilities.

arxiv情報

著者 Liangyu Chen,Bo Li,Sheng Shen,Jingkang Yang,Chunyuan Li,Kurt Keutzer,Trevor Darrell,Ziwei Liu
発行日 2023-10-23 17:59:31+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CV パーマリンク