Enhancing Multimodal Large Language Models with Vision Detection Models: An Empirical Study

要約

テキストと画像のモダリティを統合するマルチモーダル大規模言語モデル (MLLM) の優れた機能にもかかわらず、詳細な視覚要素を正確に解釈するには課題が残っています。
この論文では、最先端 (SOTA) の物体検出と光学式文字認識 (OCR) モデルを使用して MLLM を強化し、詳細な理解を向上させ、反応時の幻覚を軽減することに関する実証研究を紹介します。
私たちは、テキスト検出情報の埋め込みベースの注入、MLLM の本来の能力に対するそのような注入の影響、および検出モデルの互換性を調査します。
私たちは、LLaVA-1.5、DINO、PaddleOCRv2、Grounding DINOなどの代表的なモデルを使用して体系的かつ広範な実験を実施し、シンプルでありながら一般的なアプローチが、きめの細かい視覚タスクにおけるMLLMのパフォーマンスを向上させるだけでなく、本来の強みを維持することも明らかにしました。
特に、強化された LLaVA-1.5 は 10 のベンチマークすべてでオリジナルの 7B/13B モデルを上回り、正規化された平均スコアで最大 12.5% の改善を達成しました。
MLLM のきめ細かいマルチモーダル機能のさらなる調査を促進するために、コードをリリースします。

要約(オリジナル)

Despite the impressive capabilities of Multimodal Large Language Models (MLLMs) in integrating text and image modalities, challenges remain in accurately interpreting detailed visual elements. This paper presents an empirical study on enhancing MLLMs with state-of-the-art (SOTA) object detection and Optical Character Recognition (OCR) models to improve fine-grained understanding and reduce hallucination in responses. We investigate the embedding-based infusion of textual detection information, the impact of such infusion on MLLMs’ original abilities, and the interchangeability of detection models. We conduct systematic and extensive experiments with representative models such as LLaVA-1.5, DINO, PaddleOCRv2, and Grounding DINO, revealing that our simple yet general approach not only refines MLLMs’ performance in fine-grained visual tasks but also maintains their original strengths. Notably, the enhanced LLaVA-1.5 outperforms its original 7B/13B models on all 10 benchmarks, achieving an improvement of up to 12.5% on the normalized average score. We release our codes to facilitate further exploration into the fine-grained multimodal capabilities of MLLMs.

arxiv情報

著者 Qirui Jiao,Daoyuan Chen,Yilun Huang,Yaliang Li,Ying Shen
発行日 2024-05-30 15:09:49+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV パーマリンク