Enhancing Multi-modal Models with Heterogeneous MoE Adapters for Fine-tuning

要約

マルチモーダルモデルは、クロスモーダルタスクに優れていますが、数十億のパラメーターのために計算的に高価です。
パラメーター効率の高い微調整(PEFT)は、事前に訓練されたパラメーターを凍結しながら小さなトレーニング可能なコンポーネントを追加することにより、ソリューションを提供します。
ただし、既存の方法は主にユニモーダル処理に焦点を当て、マルチモーダルタスクに必要な重要なモーダル融合を見落としています。
このギャップを埋めるために、従来のPEFTフレームワークを拡張してマルチモーダルの専門家の組み合わせをサポートし、情報相互作用を改善する専門家アダプターの不均一な混合物を提案します。
さらに、私たちのアプローチは、アフィン線形エキスパート設計を変更して、低ランク空間で効率的なモーダル融合を可能にし、微調整されたパラメーターの5〜8%のみで競争力のあるパフォーマンスを達成します。
Visual-AudioやText-Visualを含む8つのダウンストリームタスクにわたる実験は、アプローチの優れたパフォーマンスを示しています。

要約(オリジナル)

Multi-modal models excel in cross-modal tasks but are computationally expensive due to their billions of parameters. Parameter-efficient fine-tuning (PEFT) offers a solution by adding small trainable components while freezing pre-trained parameters. However, existing methods primarily focus on uni-modal processing, overlooking the critical modal fusion needed for multi-modal tasks. To fill this gap, we propose heterogeneous mixture of experts adapters that extend the traditional PEFT framework to support multi-modal expert combinations and improve information interaction. Additionally, our approach modifies the affine linear expert design to enable efficient modal fusion in a low-rank space, achieving competitive performance with only 5-8\% of the parameters fine-tuned. Experiments across eight downstream tasks, including visual-audio and text-visual, demonstrate the superior performance of the approach.

arxiv情報

著者 Sashuai Zhou,Hai Huang,Yan Xia
発行日 2025-03-26 15:26:18+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG パーマリンク