MoVA: Adapting Mixture of Vision Experts to Multimodal Context

要約

マルチモーダル大規模言語モデル (MLLM) の主要コンポーネントであるビジュアル エンコーダーの機能は、多様な画像コンテンツに対する MLLM の理解に大きく影響します。
CLIP や DINOv2 のビジョン エンコーダなど、一部の大規模な事前トレーニング済みビジョン エンコーダは有望なパフォーマンスをもたらしていますが、さまざまな画像コンテンツの理解を支配できる単一のビジョン エンコーダはまだ存在しないことがわかりました。たとえば、CLIP ビジョン エンコーダは、画像コンテンツの優れた結果につながります。
一般的な画像は理解できますが、ドキュメントやグラフのコンテンツのパフォーマンスが不十分です。
CLIP ビジョン エンコーダのバイアスを軽減するために、まずさまざまな事前トレーニング済みビジョン エンコーダの固有の動作を詳しく調べ、次に、タスク固有のビジョン エキスパートと粗いビジョン エンコーダを適応的にルーティングおよび融合する、強力で新しい MLLM である MoVA を提案します。
細かい仕組み。
粗粒度の段階では、ユーザーの指示、入力画像、視覚専門家の専門知識に応じて、最適な視覚専門家を動的に選択する、コンテキスト認識型の専門家ルーティング戦略を設計します。
これは、エキスパート ルーティング低ランク アダプテーション (LoRA) を備えた大規模言語モデル (LLM) の強力なモデル関数理解能力の恩恵を受けます。
詳細化段階では、さまざまな専門家からタスク固有の知識を抽出して融合するためのビジョン専門家混合アダプター (MoV-Adapter) を入念に実行します。
この粗いパラダイムは、マルチモーダルなコンテキストとモデルの専門知識に基づいた専門家からの表現を効果的に活用し、一般化能力をさらに強化します。
私たちは、提案されたアプローチの有効性を評価するために広範な実験を実施します。
MoVA は、付加機能なしで、さまざまな困難なマルチモーダル ベンチマークにおいて、現在の最先端の方法と比較して大幅なパフォーマンス向上を達成できます。
コードとモデルは https://github.com/TempleX98/MoVA で入手できます。

要約(オリジナル)

As the key component in multimodal large language models (MLLMs), the ability of the visual encoder greatly affects MLLM’s understanding on diverse image content. Although some large-scale pretrained vision encoders such as vision encoders in CLIP and DINOv2 have brought promising performance, we found that there is still no single vision encoder that can dominate various image content understanding, e.g., the CLIP vision encoder leads to outstanding results on general image understanding but poor performance on document or chart content. To alleviate the bias of CLIP vision encoder, we first delve into the inherent behavior of different pre-trained vision encoders and then propose the MoVA, a powerful and novel MLLM, adaptively routing and fusing task-specific vision experts with a coarse-to-fine mechanism. In the coarse-grained stage, we design a context-aware expert routing strategy to dynamically select the most suitable vision experts according to the user instruction, input image, and expertise of vision experts. This benefits from the powerful model function understanding ability of the large language model (LLM) equipped with expert-routing low-rank adaptation (LoRA). In the fine-grained stage, we elaborately conduct the mixture-of-vision-expert adapter (MoV-Adapter) to extract and fuse task-specific knowledge from various experts. This coarse-to-fine paradigm effectively leverages representations from experts based on multimodal context and model expertise, further enhancing the generalization ability. We conduct extensive experiments to evaluate the effectiveness of the proposed approach. Without any bells and whistles, MoVA can achieve significant performance gains over current state-of-the-art methods in a wide range of challenging multimodal benchmarks. Codes and models will be available at https://github.com/TempleX98/MoVA.

arxiv情報

著者 Zhuofan Zong,Bingqi Ma,Dazhong Shen,Guanglu Song,Hao Shao,Dongzhi Jiang,Hongsheng Li,Yu Liu
発行日 2024-04-19 17:59:48+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク