要約
最近、視覚的質問答(VQA)のビジョン言語モデル(VLMS)を包括的に改善するために、VLMSの推論機能をさらに強化して、VLMSとしてのみ大規模な言語にのみ使用する方法ではなく、VQAタスクに独立して取り組むためにいくつかの方法が提案されています。
モデル(LLMS)。
ただし、これらの方法は、現実の世界からサンプリングされた与えられたVQA画像内の豊富な常識的な知識を無視します。
したがって、最適なパフォーマンスを実現するために、与えられたVQA質問に強力なVLMを完全に使用することはできません。
この制限を克服し、人間のトップダウン推論プロセスに触発され、つまり、関連する問題を体系的に調査して包括的な答えを導き出すために、この作品は、大規模な言語モデルの広範な知識を活用することにより、斬新で説明可能なマルチエージェントコラボレーションフレームワークを紹介します(
LLMS)VLM自体の機能を強化する。
具体的には、私たちのフレームワークは、3つのエージェント、つまりレスポンダー、シーカー、およびインテグレーターで構成され、関連する問題を求め、そのようなトップダウン推論プロセスで最終回答を生成することにより、与えられたVQAの質問に協力して回答します。
VLMベースのレスポンダーエージェントは、質問の回答候補を生成し、他の関連する問題に回答します。
主にLLMに基づくシーカーエージェントは、質問に関連する関連する問題を特定して、レスポンダーエージェントに通知し、LLMのビルドインワールドナレッジを活用することにより、与えられた視覚シーンのマルチビューナレッジベース(MVKB)を構築します。
インテグレーターエージェントは、シーカーエージェントとレスポンダーエージェントからの知識を組み合わせて、最終的なVQA回答を作成します。
さまざまなVLMを備えた多様なVQAデータセットに関する広範かつ包括的な評価は、追加のトレーニングコストなしでゼロショット設定でベースラインメソッドをめぐるフレームワークの優れたパフォーマンスと解釈可能性を示しています。
要約(オリジナル)
Recently, to comprehensively improve Vision Language Models (VLMs) for Visual Question Answering (VQA), several methods have been proposed to further reinforce the inference capabilities of VLMs to independently tackle VQA tasks rather than some methods that only utilize VLMs as aids to Large Language Models (LLMs). However, these methods ignore the rich common-sense knowledge inside the given VQA image sampled from the real world. Thus, they cannot fully use the powerful VLM for the given VQA question to achieve optimal performance. Attempt to overcome this limitation and inspired by the human top-down reasoning process, i.e., systematically exploring relevant issues to derive a comprehensive answer, this work introduces a novel, explainable multi-agent collaboration framework by leveraging the expansive knowledge of Large Language Models (LLMs) to enhance the capabilities of VLMs themselves. Specifically, our framework comprises three agents, i.e., Responder, Seeker, and Integrator, to collaboratively answer the given VQA question by seeking its relevant issues and generating the final answer in such a top-down reasoning process. The VLM-based Responder agent generates the answer candidates for the question and responds to other relevant issues. The Seeker agent, primarily based on LLM, identifies relevant issues related to the question to inform the Responder agent and constructs a Multi-View Knowledge Base (MVKB) for the given visual scene by leveraging the build-in world knowledge of LLM. The Integrator agent combines knowledge from the Seeker agent and the Responder agent to produce the final VQA answer. Extensive and comprehensive evaluations on diverse VQA datasets with a variety of VLMs demonstrate the superior performance and interpretability of our framework over the baseline method in the zero-shot setting without extra training cost.
arxiv情報
著者 |
Zeqing Wang,Wentao Wan,Qiqing Lao,Runmeng Chen,Minjie Lang,Xiao Wang,Keze Wang,Liang Lin |
発行日 |
2025-02-14 18:09:50+00:00 |
arxivサイト |
arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google