Not All Attention is Needed: Parameter and Computation Efficient Transfer Learning for Multi-modal Large Language Models

要約

この論文では、効率的注意スキッピング (EAS) と呼ばれる、マルチモーダル大規模言語モデル (MLLM) のための新しいパラメーターと計算効率の高い調整方法を提案します。
具体的には、MLLM の主な計算オーバーヘッドであるマルチヘッド アテンション (MHA) が下流のタスクにとって冗長であることが多いことをまず明らかにします。
この観察に基づいて、EAS は注意の冗長性を評価し、重要度の低い MHA をスキップして推論を高速化します。
さらに、EAS のアテンションスキップに機能し、パラメータ効率を維持するための新しい情報伝播アダプタ (PIA) も提案します。これは、追加遅延ゼロのフィードフォワード ネットワーク (FFN) にさらに再パラメータ化できます。
EAS を検証するために、最近提案された LaVIN と呼ばれる MLLM と METER と呼ばれる古典的な VL 事前トレーニング済みモデルに EAS を適用し、一連のベンチマークで広範な実験を実施します。
実験の結果、EAS は高いパフォーマンスとパラメーター効率を維持するだけでなく、推論速度も大幅に高速化されることがわかりました。
たとえば、LaVIN-EAS は、LaVIN の 2.2 倍に推論を高速化しながら、ScineceQA で 89.98% の精度を得ることができます。

要約(オリジナル)

In this paper, we propose a novel parameter and computation efficient tuning method for Multi-modal Large Language Models (MLLMs), termed Efficient Attention Skipping (EAS). Concretely, we first reveal that multi-head attentions (MHAs), the main computational overhead of MLLMs, are often redundant to downstream tasks. Based on this observation, EAS evaluates the attention redundancy and skips the less important MHAs to speed up inference. Besides, we also propose a novel propagation-of-information adapter (PIA) to serve the attention skipping of EAS and keep parameter efficiency, which can be further re-parameterized into feed-forward networks (FFNs) for zero-extra latency. To validate EAS, we apply it to a recently proposed MLLM called LaVIN and a classic VL pre-trained model called METER, and conduct extensive experiments on a set of benchmarks. The experiments show that EAS not only retains high performance and parameter efficiency, but also greatly speeds up inference speed. For instance, LaVIN-EAS can obtain 89.98\% accuracy on ScineceQA while speeding up inference by 2.2 times to LaVIN

arxiv情報

著者 Qiong Wu,Weihao Ye,Yiyi Zhou,Xiaoshuai Sun,Rongrong Ji
発行日 2024-03-22 14:20:34+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.MM パーマリンク