MoME: Mixture of Multimodal Experts for Generalist Multimodal Large Language Models

要約

マルチモーダル大規模言語モデル (MLLM) は、さまざまな視覚言語タスクにわたって優れた機能を実証しています。
ただし、一般的な MLLM は、ほとんどの VL タスクにおいてスペシャリスト MLLM に比べてパフォーマンスが低く、これはタスクの干渉が原因である可能性があります。
この論文では、タスクの干渉を軽減し、ジェネラリストの MLLM を取得するために、マルチモーダル専門家の混合 (MoME) を提案します。
私たちの MoME は、視覚専門家の混合 (MoVE) と言語専門家の混合 (MoLE) という 2 つの主要なコンポーネントで構成されています。
MoVE は、さまざまなビジョン エンコーダから変換された特徴を適応的に変調でき、変換アーキテクチャに強力な互換性があります。
MoLE は、まばらにゲートされた専門家を LLM に組み込んで、ほぼ変わらない推論コストで痛みのない改善を実現します。
タスクの干渉に対応して、MoME はタスクの矛盾に適応するために視覚と言語の両方のモダリティに特化しています。
広範な実験により、MoME がさまざまな VL タスクにわたってジェネラリスト MLLM のパフォーマンスを大幅に向上させることが示されています。
ソースコードはhttps://github.com/JiuTian-VL/MoMEで公開されています

要約(オリジナル)

Multimodal large language models (MLLMs) have demonstrated impressive capabilities across various vision-language tasks. However, a generalist MLLM typically underperforms compared with a specialist MLLM on most VL tasks, which can be attributed to task interference. In this paper, we propose a mixture of multimodal experts (MoME) to mitigate task interference and obtain a generalist MLLM. Our MoME is composed of two key components, a mixture of vision experts (MoVE) and a mixture of language experts (MoLE). MoVE can adaptively modulate the features transformed from various vision encoders, and has a strong compatibility in transformation architecture. MoLE incorporates sparsely gated experts into LLMs to achieve painless improvements with roughly unchanged inference costs. In response to task interference, our MoME specializes in both vision and language modality to adapt to task discrepancies. Extensive experiments show that MoME significantly improves the performance of generalist MLLMs across various VL tasks. The source code is released at https://github.com/JiuTian-VL/MoME

arxiv情報

著者 Leyang Shen,Gongwei Chen,Rui Shao,Weili Guan,Liqiang Nie
発行日 2024-07-17 16:31:38+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク