Higher Layers Need More LoRA Experts

要約

低ランク適応 (LoRA) などのパラメーター効率的チューニング (PEFT) 手法は、大規模言語モデルのトレーニング効率を高めますが、モデルのパフォーマンスへの影響は限定的です。
最近の取り組みでは、LoRA と専門家混合 (MoE) を統合して、PEFT 手法のパフォーマンスを向上させています。
有望な結果にもかかわらず、MoE を使用した LoRA の効率向上に関する研究はまだ初期段階にあります。
最近の研究によると、MoE アーキテクチャの専門家にはさまざまな強みがあり、ある程度の冗長性も示されています。
この記述はパラメータ効率の高い MoE にも適用されますか?
この論文では、新しいパラメータ効率の高い MoE 手法である \textit{\textbf{M}oE-L\textbf{o}RA と \textbf{L}ayer-wise Expert \textbf{A}llocation (MoLA) を紹介します。
} Transformer ベースのモデルの場合、各モデル層にはさまざまな数の LoRA 専門家を採用できる柔軟性があります。
私たちは、さまざまなレイヤーごとのエキスパート構成を備えたいくつかのアーキテクチャを調査します。
6 つのよく知られた NLP および常識的な QA ベンチマークの実験により、MoLA がすべてのベースラインと比較して同等またはそれ以上のパフォーマンスを達成することが実証されました。
より多くの LoRA エキスパートを上位層に割り当てると、合計で一定数のエキスパートを含むモデルの有効性がさらに高まることがわかりました。
パラメーターがはるかに少ないため、この割り当て戦略は、すべてのレイヤーに同じ数のエキスパートを配置した設定よりも優れたパフォーマンスを発揮します。
この成果は、さまざまなアプリケーションに対するプラグ アンド プレイのパラメータ効率の高い調整アプローチとして広く使用できます。
コードは https://github.com/GCYZSL/MoLA で入手できます。

要約(オリジナル)

Parameter-efficient tuning (PEFT) techniques like low-rank adaptation (LoRA) offer training efficiency on Large Language Models, but their impact on model performance remains limited. Recent efforts integrate LoRA and Mixture-of-Experts (MoE) to improve the performance of PEFT methods. Despite promising results, research on improving the efficiency of LoRA with MoE is still in its early stages. Recent studies have shown that experts in the MoE architecture have different strengths and also exhibit some redundancy. Does this statement also apply to parameter-efficient MoE? In this paper, we introduce a novel parameter-efficient MoE method, \textit{\textbf{M}oE-L\textbf{o}RA with \textbf{L}ayer-wise Expert \textbf{A}llocation (MoLA)} for Transformer-based models, where each model layer has the flexibility to employ a varying number of LoRA experts. We investigate several architectures with varying layer-wise expert configurations. Experiments on six well-known NLP and commonsense QA benchmarks demonstrate that MoLA achieves equal or superior performance compared to all baselines. We find that allocating more LoRA experts to higher layers further enhances the effectiveness of models with a certain number of experts in total. With much fewer parameters, this allocation strategy outperforms the setting with the same number of experts in every layer. This work can be widely used as a plug-and-play parameter-efficient tuning approach for various applications. The code is available at https://github.com/GCYZSL/MoLA.

arxiv情報

著者 Chongyang Gao,Kezhen Chen,Jinmeng Rao,Baochen Sun,Ruibo Liu,Daiyi Peng,Yawen Zhang,Xiaoyuan Guo,Jie Yang,VS Subrahmanian
発行日 2024-02-13 16:04:21+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク