LLaVA-MoD: Making LLaVA Tiny via MoE Knowledge Distillation

要約

大規模な MLLM (l-MLLM) から知識を抽出することで、小規模なマルチモーダル言語モデル (s-MLLM) の効率的なトレーニングを可能にするように設計された新しいフレームワークである LLaVA-MoD を紹介します。
私たちのアプローチは、MLLM 蒸留における 2 つの基本的な課題に取り組みます。
まず、疎な Mixture of Experts (MoE) アーキテクチャを言語モデルに統合することで s-MLLM のネットワーク構造を最適化し、計算効率とモデルの表現力のバランスをとります。
第二に、包括的な知識の移行を確実にするための進歩的な知識移転戦略を提案します。
この戦略は模倣蒸留から始まり、出力分布間のカルバック・ライブラー (KL) 発散を最小限に抑えて、生徒モデルが教師ネットワークの理解をエミュレートできるようにします。
これに続いて、直接優先最適化 (DPO) による優先蒸留を紹介します。ここで鍵となるのは、l-MLLM を参照モデルとして扱うことです。
この段階では、優れた例と劣った例を区別する s-MLLM の能力が l-MLLM を超えて大幅に強化され、特に幻覚ベンチマークにおいて教師を上回る優れた生徒が生まれます。
広範な実験により、LLaVA-MoD は、最小限の有効化パラメータと低い計算コストを維持しながら、さまざまなマルチモーダル ベンチマークにわたって既存のモデルよりも優れたパフォーマンスを発揮することが実証されています。
注目すべきことに、LLaVA-MoD は、有効化されたパラメータが 2B のみで、トレーニング データのわずか 0.3% とトレーニング可能なパラメータの 23% を使用して、ベンチマーク全体で平均 8.8% も Qwen-VL-Chat-7B を上回っています。
これらの結果は、LLaVA-MoD が教師モデルから包括的な知識を効果的に抽出し、より効率的な MLLM の開発への道を開く能力を強調しています。
コードは https://github.com/shufangxun/LLaVA-MoD で入手できます。

要約(オリジナル)

We introduce LLaVA-MoD, a novel framework designed to enable the efficient training of small-scale Multimodal Language Models (s-MLLM) by distilling knowledge from large-scale MLLM (l-MLLM). Our approach tackles two fundamental challenges in MLLM distillation. First, we optimize the network structure of s-MLLM by integrating a sparse Mixture of Experts (MoE) architecture into the language model, striking a balance between computational efficiency and model expressiveness. Second, we propose a progressive knowledge transfer strategy to ensure comprehensive knowledge migration. This strategy begins with mimic distillation, where we minimize the Kullback-Leibler (KL) divergence between output distributions to enable the student model to emulate the teacher network’s understanding. Following this, we introduce preference distillation via Direct Preference Optimization (DPO), where the key lies in treating l-MLLM as the reference model. During this phase, the s-MLLM’s ability to discriminate between superior and inferior examples is significantly enhanced beyond l-MLLM, leading to a better student that surpasses its teacher, particularly in hallucination benchmarks. Extensive experiments demonstrate that LLaVA-MoD outperforms existing models across various multimodal benchmarks while maintaining a minimal number of activated parameters and low computational costs. Remarkably, LLaVA-MoD, with only 2B activated parameters, surpasses Qwen-VL-Chat-7B by an average of 8.8% across benchmarks, using merely 0.3% of the training data and 23% trainable parameters. These results underscore LLaVA-MoD’s ability to effectively distill comprehensive knowledge from its teacher model, paving the way for the development of more efficient MLLMs. The code will be available on: https://github.com/shufangxun/LLaVA-MoD.

arxiv情報

著者 Fangxun Shu,Yue Liao,Le Zhuo,Chenning Xu,Guanghao Zhang,Haonan Shi,Long Chen,Tao Zhong,Wanggui He,Siming Fu,Haoyuan Li,Bolin Li,Zhelun Yu,Si Liu,Hongsheng Li,Hao Jiang
発行日 2024-08-28 15:52:23+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク