要約
マルチモーダルモデルは、クロスモーダルタスクに優れていますが、数十億のパラメーターのために計算的に高価です。
パラメーター効率の高い微調整(PEFT)は、事前に訓練されたパラメーターを凍結しながら小さなトレーニング可能なコンポーネントを追加することにより、ソリューションを提供します。
ただし、既存の方法は主にユニモーダル処理に焦点を当て、マルチモーダルタスクに必要な重要なモーダル融合を見落としています。
このギャップを埋めるために、従来のPEFTフレームワークを拡張してマルチモーダルの専門家の組み合わせをサポートし、情報相互作用を改善する専門家アダプターの不均一な混合物を提案します。
さらに、私たちのアプローチは、アフィン線形エキスパート設計を変更して、低ランク空間で効率的なモーダル融合を可能にし、微調整されたパラメーターの5〜8%のみで競争力のあるパフォーマンスを達成します。
Visual-AudioやText-Visualを含む8つのダウンストリームタスクにわたる実験は、アプローチの優れたパフォーマンスを示しています。
要約(オリジナル)
Multi-modal models excel in cross-modal tasks but are computationally expensive due to their billions of parameters. Parameter-efficient fine-tuning (PEFT) offers a solution by adding small trainable components while freezing pre-trained parameters. However, existing methods primarily focus on uni-modal processing, overlooking the critical modal fusion needed for multi-modal tasks. To fill this gap, we propose heterogeneous mixture of experts adapters that extend the traditional PEFT framework to support multi-modal expert combinations and improve information interaction. Additionally, our approach modifies the affine linear expert design to enable efficient modal fusion in a low-rank space, achieving competitive performance with only 5-8\% of the parameters fine-tuned. Experiments across eight downstream tasks, including visual-audio and text-visual, demonstrate the superior performance of the approach.
arxiv情報
著者 | Sashuai Zhou,Hai Huang,Yan Xia |
発行日 | 2025-03-26 15:26:18+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google