要約
さまざまなイメージテキスト命令データに対する命令の微調整は、汎用性の高いマルチモーダル大規模言語モデル (MLLM) を取得するための鍵であり、命令データの構成が異なると、さまざまな機能を備えた微調整されたモデルが得られる可能性があります。
ただし、異なるドメインからの命令データを混合するとデータの競合が避けられず、その結果、特定のドメインのタスクのパフォーマンスが低下する可能性があることがわかりました。
この問題に対処するために、MLLM を微調整するための LoRA エキスパートのまばらな混合 (MoLE) である効率的なエキスパート混合 (MoE) 設計を適用することを提案します。
Transformer レイヤー内では、MLP レイヤー専用の LoRA エキスパートのセットを作成することで一般的な Low-Rank Adaption (LoRA) メソッドを拡張し、ルーティング関数に基づいて各トークンをトップ 1 エキスパートにルーティングし、適応的な選択を可能にします。
異なるドメインからのトークン。
LoRA エキスパートはまばらにアクティブ化されるため、トレーニングと推論のコストは、元の LoRA 手法と比較してほぼ一定に保たれます。
LLaVA-1.5 のプレーン LoRA を MoE 設計に置き換えることにより、最終モデルは LLaVA-MoLE と名付けられます。
広範な実験により、LLaVA-MoLE は、複数の個別の命令データセットをさまざまな構成で混合する場合にデータ競合の問題を効果的に軽減し、強力なプレーン LoRA ベースラインを超える一貫したパフォーマンスの向上を達成することが証明されました。
最も重要なことは、混合データセットでは、LLaVA-MoLE が 2 倍のサンプルでトレーニングされた単純な LoRA ベースラインよりも優れたパフォーマンスを発揮できることです。
要約(オリジナル)
Instruction finetuning on a variety of image-text instruction data is the key to obtaining a versatile Multimodal Large Language Model (MLLM), and different configurations of the instruction data can lead to finetuned models with different capabilities. However, we have discovered that data conflicts are inevitable when mixing instruction data from distinct domains, which can result in performance drops for tasks of a specific domain. To address this issue, we propose to apply an efficient Mixture of Experts (MoE) design, which is a sparse Mixture of LoRA Experts (MoLE) for instruction finetuning MLLMs. Within the Transformer layers, we extend the popular Low-Rank Adaption (LoRA) method by creating a set of LoRA experts specifically for the MLP layer, and route each token to the top-1 expert based on a routing function, allowing adaptive choices for tokens from different domains. Since the LoRA experts are sparsely activated, the training and inference cost are kept roughly constant compared to the original LoRA method. By replacing the plain-LoRA of LLaVA-1.5 with our MoE design, our final model is named LLaVA-MoLE. Extensive experiments proved that LLaVA-MoLE effectively mitigates the data conflict issue when mixing multiple distinct instruction datasets with various configurations, and achieves consistent performance gains over the strong plain-LoRA baselines. Most importantly, on the mixed datasets, LLaVA-MoLE can even outperform the plain-LoRA baseline trained with twice the samples.
arxiv情報
著者 | Shaoxiang Chen,Zequn Jie,Lin Ma |
発行日 | 2024-01-30 15:44:58+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google