Enhancing Multimodal Large Language Models with Vision Detection Models: An Empirical Study

要約

テキストと画像のモダリティを統合するマルチモーダル大規模言語モデル (MLLM) の優れた機能にもかかわらず、詳細な視覚要素を正確に解釈するには課題が残っています。
この論文では、最先端 (SOTA) の物体検出と光学式文字認識モデルを使用して MLLM を強化し、きめの細かい画像理解を向上させ、反応時の幻覚を軽減することに関する実証研究を紹介します。
私たちの研究では、埋め込みベースの検出情報の注入、MLLM の本来の能力に対するそのような注入の影響、および検出モデルの互換性を調査しています。
私たちは、LLaVA-1.5、DINO、PaddleOCRv2 ​​などのモデルを使用して系統的な実験を行っており、私たちのアプローチが特定の視覚タスクにおける MLLM のパフォーマンスを向上させるだけでなく、本来の強みも維持していることを明らかにしています。
結果として強化された MLLM は、10 ベンチマーク中 9 で SOTA モデルを上回り、正規化された平均スコアで最大 12.99% の改善を達成し、マルチモーダルの理解において顕著な進歩を示しています。
私たちは、MLLM のきめ細かいマルチモーダル対話機能のさらなる探索を促進するためにコードをリリースします。

要約(オリジナル)

Despite the impressive capabilities of Multimodal Large Language Models (MLLMs) in integrating text and image modalities, challenges remain in accurately interpreting detailed visual elements. This paper presents an empirical study on enhancing MLLMs with state-of-the-art (SOTA) object detection and Optical Character Recognition models to improve fine-grained image understanding and reduce hallucination in responses. Our research investigates the embedding-based infusion of detection information, the impact of such infusion on the MLLMs’ original abilities, and the interchangeability of detection models. We conduct systematic experiments with models such as LLaVA-1.5, DINO, and PaddleOCRv2, revealing that our approach not only refines MLLMs’ performance in specific visual tasks but also maintains their original strengths. The resulting enhanced MLLMs outperform SOTA models on 9 out of 10 benchmarks, achieving an improvement of up to 12.99% on the normalized average score, marking a notable advancement in multimodal understanding. We release our codes to facilitate further exploration into the fine-grained multimodal dialogue capabilities of MLLMs.

arxiv情報

著者 Qirui Jiao,Daoyuan Chen,Yilun Huang,Yaliang Li,Ying Shen
発行日 2024-01-31 16:38:32+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV パーマリンク