MaVEn: An Effective Multi-granularity Hybrid Visual Encoding Framework for Multimodal Large Language Model

要約

このペーパーでは、マルチイメージ推論におけるマルチモーダル大規模言語モデル (MLLM) の機能を強化するために設計された革新的な多粒度ビジュアル エンコーディング フレームワークである MaVEn について説明します。
現在の MLLM は主に単一画像の視覚的理解を重視しており、複数の画像にわたる情報を解釈して統合する能力は限られています。
MaVEn は、粗粒度の意味概念を抽象化する離散視覚シンボル シーケンスと、粒度の細かい特徴をモデル化する従来の連続表現シーケンスを組み合わせることで、この制限に対処します。
この二重のアプローチにより、視覚データとテキスト データの間の意味論的なギャップが埋められ、それによって複数の画像からの情報を効果的に処理および解釈するモデルの能力が向上します。
さらに、複数画像の処理効率を高めるために、長時間の連続特徴を動的に縮小するメカニズムを設計します。
実験結果は、MaVEn が複雑な複数画像シナリオにおける MLLM の理解を大幅に強化し、同時に単一画像コンテキストでのパフォーマンスも向上させることを示しています。

要約(オリジナル)

This paper presents MaVEn, an innovative Multi-granularity Visual Encoding framework designed to enhance the capabilities of Multimodal Large Language Models (MLLMs) in multi-image reasoning. Current MLLMs primarily focus on single-image visual understanding, limiting their ability to interpret and integrate information across multiple images. MaVEn addresses this limitation by combining discrete visual symbol sequences, which abstract coarse-grained semantic concepts, with traditional continuous representation sequences that model fine-grained features. This dual approach bridges the semantic gap between visual and textual data, thereby improving the model’s ability to process and interpret information from multiple images effectively. Additionally, we design a dynamic reduction mechanism by for long-sequence continuous features to enhance multi-image processing efficiency. Experimental results demonstrate that MaVEn significantly enhances MLLMs’ understanding in complex multi-image scenarios, while also improving performance in single-image contexts.

arxiv情報

著者 Chaoya Jiang,Jia Hongrui,Haiyang Xu,Wei Ye,Mengfan Dong,Ming Yan,Ji Zhang,Fei Huang,Shikun Zhang
発行日 2024-08-22 11:57:16+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CV, cs.MM パーマリンク