Rethinking Visual Prompting for Multimodal Large Language Models with External Knowledge

要約

近年、マルチモーダル大規模言語モデル(MLLM)は、膨大で高品質な画像-テキストデータセットで学習することにより大きな進歩を遂げ、一般的に画像をよく理解できるようになった。しかし、マスクのような、テキスト中の細かな、あるいは空間的に密な情報を明示的に伝えることの本質的な難しさは、MLLMに課題をもたらし、詳細な、あるいは局所的な視覚的要素の理解を必要とする質問に答える能力を制限している。本論文では、RAG(Retrieval-Augmented Generation)コンセプトから着想を得て、特殊な視覚モデル(例えば、インスタンス分割/OCRモデル)から得られる、きめの細かい外部知識をMLLMに統合する新しい視覚プロンプトアプローチを提案する。これは、MLLMの性能を向上させるための、まだ十分に研究されていない有望な方向性である。我々のアプローチは、外部知識を付加的なテキストプロンプトに変換し、視覚的内容とテキスト座標の対応を間接的に学習する必要がある、同時並行研究とは異なる。その代わりに、我々は、細かい知識情報を視覚的プロンプトとして空間埋め込みマップに直接埋め込むことを提案する。この設計は、LLaVAやMiphaのような様々なMLLMに容易に組み込むことができ、視覚理解性能を大幅に向上させる。厳密な実験を通じて、我々の手法が9つのベンチマークにおいてMLLMの性能を向上させ、きめ細かな文脈認識能力を増幅できることを実証する。

要約(オリジナル)

In recent years, multimodal large language models (MLLMs) have made significant strides by training on vast high-quality image-text datasets, enabling them to generally understand images well. However, the inherent difficulty in explicitly conveying fine-grained or spatially dense information in text, such as masks, poses a challenge for MLLMs, limiting their ability to answer questions requiring an understanding of detailed or localized visual elements. Drawing inspiration from the Retrieval-Augmented Generation (RAG) concept, this paper proposes a new visual prompt approach to integrate fine-grained external knowledge, gleaned from specialized vision models (e.g., instance segmentation/OCR models), into MLLMs. This is a promising yet underexplored direction for enhancing MLLMs’ performance. Our approach diverges from concurrent works, which transform external knowledge into additional text prompts, necessitating the model to indirectly learn the correspondence between visual content and text coordinates. Instead, we propose embedding fine-grained knowledge information directly into a spatial embedding map as a visual prompt. This design can be effortlessly incorporated into various MLLMs, such as LLaVA and Mipha, considerably improving their visual understanding performance. Through rigorous experiments, we demonstrate that our method can enhance MLLM performance across nine benchmarks, amplifying their fine-grained context-aware capabilities.

arxiv情報

著者 Yuanze Lin,Yunsheng Li,Dongdong Chen,Weijian Xu,Ronald Clark,Philip Torr,Lu Yuan
発行日 2024-07-05 17:43:30+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.CL, cs.CV, cs.LG パーマリンク