Draw-and-Understand: Leveraging Visual Prompts to Enable MLLMs to Comprehend What You Want

要約

人間と人工知能 (AI) の間の相互作用は、マルチモーダル大規模言語モデル (MLLM) の有効性を反映する重要な要素です。
ただし、現在の MLLM は主に画像レベルの理解に焦点を当てており、インタラクションをテキストによる指示に限定しているため、使用方法の柔軟性や応答の深さが制限されています。
このペーパーでは、Draw-and-Understand プロジェクト、つまり新しいモデル、マルチドメイン データセット、および視覚的なプロンプトのための挑戦的なベンチマークを紹介します。
具体的には、ビジョン エンコーダ、ビジュアル プロンプト エンコーダ、およびさまざまなビジュアル プロンプト (ポイント、バウンディング ボックス、自由形式) 用の LLM を接続する、新しいエンドツーエンドでトレーニングされたマルチモーダル大規模言語モデル (MLLM) である SPHINX-V を提案します。
形状)と言語理解。
MLLM 向けの視覚的プロンプト研究を進めるために、MDVP-Data と MDVP-Bench を導入します。
MDVP-Data は、自然画像、文書画像、OCR 画像、モバイル スクリーンショット、Web スクリーンショット、マルチパネル画像など、160 万件の固有の画像、視覚的プロンプト テキスト、指示に従うサンプルを含むマルチドメイン データセットを備えています。
さらに、視覚的なプロンプト指示を理解するモデルの能力を評価するための包括的で挑戦的なベンチマークである MDVP-Bench を紹介します。
私たちの実験では、視覚的なプロンプトを通じて SPHINX-V の優れたマルチモーダル インタラクション機能を実証し、詳細なピクセル レベルの説明と質問応答能力が大幅に向上していることが明らかになりました。

要約(オリジナル)

The interaction between humans and artificial intelligence (AI) is a crucial factor that reflects the effectiveness of multimodal large language models (MLLMs). However, current MLLMs primarily focus on image-level comprehension and limit interaction to textual instructions, thereby constraining their flexibility in usage and depth of response. In this paper, we introduce the Draw-and-Understand project: a new model, a multi-domain dataset, and a challenging benchmark for visual prompting. Specifically, we propose SPHINX-V, a new end-to-end trained Multimodal Large Language Model (MLLM) that connects a vision encoder, a visual prompt encoder and an LLM for various visual prompts (points, bounding boxes, and free-form shape) and language understanding. To advance visual prompting research for MLLMs, we introduce MDVP-Data and MDVP-Bench. MDVP-Data features a multi-domain dataset containing 1.6M unique image-visual prompt-text instruction-following samples, including natural images, document images, OCR images, mobile screenshots, web screenshots, and multi-panel images. Furthermore, we present MDVP-Bench, a comprehensive and challenging benchmark to assess a model’s capability in understanding visual prompting instructions. Our experiments demonstrate SPHINX-V’s impressive multimodal interaction capabilities through visual prompting, revealing significant improvements in detailed pixel-level description and question-answering abilities.

arxiv情報

著者 Weifeng Lin,Xinyu Wei,Ruichuan An,Peng Gao,Bocheng Zou,Yulin Luo,Siyuan Huang,Shanghang Zhang,Hongsheng Li
発行日 2024-04-01 03:25:30+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク