要約
既存の大規模な視覚言語マルチモーダルモデルが画像全体の理解に焦点を当てている一方で、領域特異的な理解の実現には顕著なギャップがある。テキスト座標や空間エンコーディングを用いる現在のアプローチは、視覚的プロンプトのためのユーザフレンドリーなインターフェースを提供できないことが多い。この課題を解決するために、我々は、任意の視覚的プロンプトをデコードできる新しいマルチモーダルモデルを導入する。これにより、ユーザは直感的に画像をマークし、「赤いバウンディングボックス」や「尖った矢印」のような自然な手がかりを用いてモデルと対話することができる。我々のシンプルな設計は、複雑な領域符号化を必要とせず、RGB画像に視覚的マーカーを直接オーバーレイするものでありながら、Visual7W、PointQA、Visual Commonsense Reasoning benchmarkのような領域理解タスクにおいて最先端の性能を達成している。さらに、多次元にわたる視覚的プロンプトの理解におけるモデルの能力を評価するための包括的ベンチマークであるViP-Benchを発表し、この領域における将来の研究を可能にする。コード、データ、モデルは公開されている。
要約(オリジナル)
While existing large vision-language multimodal models focus on whole image understanding, there is a prominent gap in achieving region-specific comprehension. Current approaches that use textual coordinates or spatial encodings often fail to provide a user-friendly interface for visual prompting. To address this challenge, we introduce a novel multimodal model capable of decoding arbitrary visual prompts. This allows users to intuitively mark images and interact with the model using natural cues like a ‘red bounding box’ or ‘pointed arrow’. Our simple design directly overlays visual markers onto the RGB image, eliminating the need for complex region encodings, yet achieves state-of-the-art performance on region-understanding tasks like Visual7W, PointQA, and Visual Commonsense Reasoning benchmark. Furthermore, we present ViP-Bench, a comprehensive benchmark to assess the capability of models in understanding visual prompts across multiple dimensions, enabling future research in this domain. Code, data, and model are publicly available.
arxiv情報
著者 | Mu Cai,Haotian Liu,Siva Karthik Mustikovela,Gregory P. Meyer,Yuning Chai,Dennis Park,Yong Jae Lee |
発行日 | 2023-12-01 18:59:56+00:00 |
arxivサイト | arxiv_id(pdf) |