Feast Your Eyes: Mixture-of-Resolution Adaptation for Multimodal Large Language Models

要約

目覚ましい進歩にもかかわらず、既存のマルチモーダル大規模言語モデル (MLLM) は、粒度の高い視覚認識において依然として劣っています。
これまでの研究とは対照的に、私たちは画像解像度の観点からこの問題を研究し、低解像度と高解像度の視覚的特徴を組み合わせることでこの欠点を効果的に軽減できることを明らかにしました。
この観察に基づいて、我々は、混合解像度適応化 (MRA) と呼ばれる、MLLM のための新しく効率的な方法を提案します。
特に、MRA は、解像度の異なる画像に対して 2 つの視覚経路を採用しており、高解像度の視覚情報は、新しい解像度混合アダプター (MR アダプター) を介して低解像度経路に埋め込まれます。
この設計により、MLLM の入力シーケンスの長さも大幅に短縮されます。
MRA を検証するために、それを LLaVA と呼ばれる最近の MLLM に適用し、新しいモデルを LLaVA-HR と呼びます。
私たちは 11 のビジョン言語 (VL) タスクについて広範な実験を行っており、LLaVA-HR が 8 つの VL タスクで既存の MLLM よりも優れたパフォーマンスを示しています (例: TextVQA では +9.4%)。
さらに重要なのは、LLaVA-HR のトレーニングと推論の両方が MRA を使用しても引き続き効率的であることです。たとえば、トレーニング時間は 20 時間、推論速度は LLaVA-1.5 の 3 倍です。
ソースコードはhttps://github.com/luogen1996/LLaVA-HRで公開されています。

要約(オリジナル)

Despite remarkable progress, existing multimodal large language models (MLLMs) are still inferior in granular visual recognition. Contrary to previous works, we study this problem from the perspective of image resolution, and reveal that a combination of low- and high-resolution visual features can effectively mitigate this shortcoming. Based on this observation, we propose a novel and efficient method for MLLMs, termed Mixture-of-Resolution Adaptation (MRA). In particular, MRA adopts two visual pathways for images with different resolutions, where high-resolution visual information is embedded into the low-resolution pathway via the novel mixture-of-resolution adapters (MR-Adapters). This design also greatly reduces the input sequence length of MLLMs. To validate MRA, we apply it to a recent MLLM called LLaVA, and term the new model LLaVA-HR. We conduct extensive experiments on 11 vision-language (VL) tasks, which show that LLaVA-HR outperforms existing MLLMs on 8 VL tasks, e.g., +9.4% on TextVQA. More importantly, both training and inference of LLaVA-HR remain efficient with MRA, e.g., 20 training hours and 3$\times$ inference speed than LLaVA-1.5. Source codes are released at: https://github.com/luogen1996/LLaVA-HR.

arxiv情報

著者 Gen Luo,Yiyi Zhou,Yuxin Zhang,Xiawu Zheng,Xiaoshuai Sun,Rongrong Ji
発行日 2024-03-05 14:31:24+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク