$γ-$MoD: Exploring Mixture-of-Depth Adaptation for Multimodal Large Language Models

要約

マルチモーダル大規模言語モデル (MLLM) は大幅に進歩しているにもかかわらず、その高い計算コストが依然として現実世界への展開の障壁となっています。
自然言語処理における深さの混合 (MoD) に触発され、私たちは「アクティブ化されたトークン」の観点からこの制限に対処することを目指しています。
私たちの重要な洞察は、ほとんどのトークンがレイヤーの計算に冗長である場合、MoD レイヤーを介して直接スキップできるということです。
ただし、MLLM の高密度レイヤーを MoD レイヤーに直接変換すると、パフォーマンスが大幅に低下します。
この問題に対処するために、我々は $\gamma$-MoD と呼ばれる既存の MLLM に対する革新的な MoD 適応戦略を提案します。
$\gamma$-MoD では、MLLM での MoD の展開をガイドするための新しい指標、つまり注目ランク マップ (ARank) が提案されています。
ARank を通じて、どのレイヤーが冗長で、MoD レイヤーと置き換えるべきかを効果的に特定できます。
ARank に基づいて、MLLM のパフォーマンスを維持しながら MLLM の計算スパース性を最大化するための 2 つの新しい設計、つまり共有ビジョン言語ルーターとマスクされたルーティング学習をさらに提案します。
これらの設計により、MLLM の 90% 以上の高密度層を効果的に MoD 層に変換できます。
私たちの方法を検証するために、それを 3 つの人気のある MLLM に適用し、9 つのベンチマーク データセットで広範な実験を実施しました。
実験結果は、既存の MLLM に対する $\gamma$-MoD の効率性の重要な利点を検証するだけでなく、さまざまな MLLM に対するその一般化能力も確認します。
たとえば、わずかなパフォーマンスの低下、つまり -1.5% の場合、$\gamma$-MoD は LLaVA-HR の学習時間と推論時間をそれぞれ 31.0% と 53.2% 削減できます。

要約(オリジナル)

Despite the significant progress in multimodal large language models (MLLMs), their high computational cost remains a barrier to real-world deployment. Inspired by the mixture of depths (MoDs) in natural language processing, we aim to address this limitation from the perspective of “activated tokens”. Our key insight is that if most tokens are redundant for the layer computation, then can be skipped directly via the MoD layer. However, directly converting the dense layers of MLLMs to MoD layers leads to substantial performance degradation. To address this issue, we propose an innovative MoD adaptation strategy for existing MLLMs called $\gamma$-MoD. In $\gamma$-MoD, a novel metric is proposed to guide the deployment of MoDs in the MLLM, namely rank of attention maps (ARank). Through ARank, we can effectively identify which layer is redundant and should be replaced with the MoD layer. Based on ARank, we further propose two novel designs to maximize the computational sparsity of MLLM while maintaining its performance, namely shared vision-language router and masked routing learning. With these designs, more than 90% dense layers of the MLLM can be effectively converted to the MoD ones. To validate our method, we apply it to three popular MLLMs, and conduct extensive experiments on 9 benchmark datasets. Experimental results not only validate the significant efficiency benefit of $\gamma$-MoD to existing MLLMs but also confirm its generalization ability on various MLLMs. For example, with a minor performance drop, i.e., -1.5%, $\gamma$-MoD can reduce the training and inference time of LLaVA-HR by 31.0% and 53.2%, respectively.

arxiv情報

著者 Yaxin Luo,Gen Luo,Jiayi Ji,Yiyi Zhou,Xiaoshuai Sun,Zhiqiang Shen,Rongrong Ji
発行日 2024-10-17 17:59:53+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク