要約
事前トレーニング + 微調整パラダイムは、さまざまなダウンストリーム アプリケーションにわたって大規模言語モデル (LLM) を展開するための基礎です。
このフレームワーク内で、低ランク適応 (LoRA) はパラメーター効率の高い微調整 (PEFT) で際立っており、再利用可能なタスク固有の LoRA アダプターを多数生成します。
ただし、このアプローチには明示的なタスク意図の選択が必要であり、単一の LLM に組み込まれた複数の既存の LoRA アダプターによる推論中の自律的なタスクの検出と切り替えに課題が生じます。
この作業では、フルモードの Mixture-of-Experts (MoE) アーキテクチャを介して複数のタスク固有の LoRA アダプタをベース LLM に再利用する、スケーラブルで効率的なフレームワークである MeteoRA (Multiple-tasksembedded LoRA) を導入します。
このフレームワークには、従来の MoE 実装の効率性の課題に対処するための、新しい MoE の前進加速戦略も含まれています。
MeteoRA を介して 28 個の既存の LoRA アダプターを搭載した LlaMA2-13B および LlaMA3-8B ベース モデルを使用した評価では、従来の PEFT 手法と同等のパフォーマンスが実証されました。
さらに、MeteoRA を搭載した LLM は、複合タスクの処理において優れたパフォーマンスを実現し、1 つの推論パスで 10 個の連続した問題を効果的に解決し、タイムリーなアダプター切り替えに対するフレームワークの強化された機能を実証します。
要約(オリジナル)
The pretrain+fine-tune paradigm is foundational for deploying large language models (LLMs) across various downstream applications. Within this framework, Low-Rank Adaptation (LoRA) stands out for its parameter-efficient fine-tuning (PEFT), producing numerous reusable task-specific LoRA adapters. However, this approach requires explicit task intention selection, posing challenges for autonomous task sensing and switching during inference with multiple existing LoRA adapters embedded in a single LLM. In this work, we introduce MeteoRA (Multiple-tasks embedded LoRA), a scalable and efficient framework that reuses multiple task-specific LoRA adapters into the base LLM via a full-mode Mixture-of-Experts (MoE) architecture. This framework also includes novel MoE forward acceleration strategies to address the efficiency challenges of traditional MoE implementations. Our evaluation, using the LlaMA2-13B and LlaMA3-8B base models equipped with 28 existing LoRA adapters through MeteoRA, demonstrates equivalent performance with the traditional PEFT method. Moreover, the LLM equipped with MeteoRA achieves superior performance in handling composite tasks, effectively solving ten sequential problems in a single inference pass, thereby demonstrating the framework’s enhanced capability for timely adapter switching.
arxiv情報
著者 | Jingwei Xu,Junyu Lai,Yunpeng Huang |
発行日 | 2024-10-09 15:33:10+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google