要約
低ランク適応 (LoRA) とその専門家混合 (MOE) バリアントは、非常に効果的なパラメーター効率の良い微調整 (PEFT) 手法です。
ただし、LoRA モジュールと MOE ルーターが Transformer 層の複数の線形モジュールに追加されるため、マルチテナント設定では大幅な遅延が発生します。
この問題に対処するために、私たちは、新しく効率的な LoRA の亜種である Mixture of Low-Rank Adaptation (MiLoRA) を提案します。
MiLoRA は、各 LoRA モジュールを専門家として考慮し、プロンプト認識ルーティング メカニズムを採用することで、以前の MOE スタイルの LoRA 手法とは異なります。
このメカニズムは、最初の新しいトークンを生成する前にエキスパート ルーティングの結果を 1 回計算し、これらの結果を後続のトークンに再利用して、待ち時間を短縮します。
常識的推論タスク、数学的推論タスク、および広く使用されている LLM 評価ベンチマークに関する広範な実験と分析により、MiLoRA は同等の調整可能なパラメーター バジェットで強力な PEFT ベースラインを常に上回るパフォーマンスを示しています。
さらに、MiLoRA は、以前の LoRA ベースの方法と比較して、マルチテナント設定での遅延を大幅に削減します。
要約(オリジナル)
Low-rank adaptation (LoRA) and its mixture-of-experts (MOE) variants are highly effective parameter-efficient fine-tuning (PEFT) methods. However, they introduce significant latency in multi-tenant settings due to the LoRA modules and MOE routers added to multiple linear modules in the Transformer layer. To address this issue, we propose Mixture of Low-Rank Adaptation (MiLoRA), a novel and efficient LoRA variant. MiLoRA differs from previous MOE-style LoRA methods by considering each LoRA module as an expert and employing a prompt-aware routing mechanism. This mechanism calculates expert routing results once before generating the first new token and reuses these results for subsequent tokens, reducing latency. Extensive experiments and analysis on commonsense reasoning tasks, math reasoning tasks, and widely used LLM evaluation benchmarks demonstrate that MiLoRA consistently outperforms strong PEFT baselines with comparable tunable parameter budgets. Additionally, MiLoRA significantly reduces latency in multi-tenant settings compared to previous LoRA-based methods.
arxiv情報
著者 | Jingfan Zhang,Yi Zhao,Dan Chen,Xing Tian,Huanran Zheng,Wei Zhu |
発行日 | 2024-10-23 17:04:40+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google