$\textit{V}^*$: Guided Visual Search as a Core Mechanism in Multimodal LLMs

要約

私たちが周囲を見回して複雑なタスクを実行するとき、どのように見て、見たものを選択的に処理するかが重要です。
ただし、現在のマルチモーダル LLM (MLLM) にはこの視覚検索メカニズムが欠如しているため、特に高解像度で視覚的に混雑した画像を処理する場合、重要な視覚的詳細に焦点を当てることが妨げられます。
これに対処するために、LLM の世界の知識を利用して効率的な視覚クエリを実行する、LLM ガイド付き視覚検索メカニズムである $\textit{V}^*$ を導入します。
このメカニズムを MLLM と組み合わせると、協調的な推論、文脈の理解、および特定の視覚要素の正確なターゲット設定が強化されます。
この統合により、$\textbf{S}$how、s$\textbf{EA}$rch、および Tel$\textbf{L}$ (SEAL) という名前の新しい MLLM メタ アーキテクチャが作成されます。
さらに、高解像度画像を処理し、視覚的な詳細に焦点を当てる能力において MLLM を評価するために特別に設計されたベンチマークである $\textit{V}^*$Bench を作成します。
私たちの調査では、視覚検索機能をマルチモーダル システムに組み込む必要性が強調されています。
コードは https://github.com/penghao-wu/vstar から入手できます。

要約(オリジナル)

When we look around and perform complex tasks, how we see and selectively process what we see is crucial. However, the lack of this visual search mechanism in current multimodal LLMs (MLLMs) hinders their ability to focus on important visual details, especially when handling high-resolution and visually crowded images. To address this, we introduce $\textit{V}^*$, an LLM-guided visual search mechanism that employs the world knowledge in LLMs for efficient visual querying. When combined with an MLLM, this mechanism enhances collaborative reasoning, contextual understanding, and precise targeting of specific visual elements. This integration results in a new MLLM meta-architecture, named $\textbf{S}$how, s$\textbf{EA}$rch, and Tel$\textbf{L}$ (SEAL). We further create $\textit{V}^*$Bench, a benchmark specifically designed to evaluate MLLMs in their ability to process high-resolution images and focus on visual details. Our study highlights the necessity of incorporating visual search capabilities into multimodal systems. The code is available https://github.com/penghao-wu/vstar.

arxiv情報

著者 Penghao Wu,Saining Xie
発行日 2023-12-21 18:55:06+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク