要約
トランスフォーマーベースの事前トレーニングされた大規模言語モデル (LLM) は、さまざまなドメイン、特に新興の {\em pretrain-then-finetune} パラダイムにおいて優れたパフォーマンスを実証しています。
パラメータ効率の高い微調整方法である低ランク適応 (LoRA) は、基本 LLM を複数の下流タスクに適応させるためによく使用されます。
さらに、LLM プラットフォームを使用すると、開発者は複数のモデルを微調整し、さまざまなドメイン固有のアプリケーションを同時に開発できます。
ただし、既存のモデル並列スキームでは、GPU やマシン間で複数の LoRA タスクをトレーニングする場合、高い通信オーバーヘッドと非効率的な GPU 使用率という問題があります。
このペーパーでは、GPU やマシン全体で複数の LoRA をトレーニングするために設計された並列処理効率の高い微調整システムである mLoRA を紹介します。
mLoRA は、独立した LoRA アダプターとその個別の微調整ステージを GPU やマシン全体で効率的にパイプライン化する新しい LoRA 対応パイプライン並列処理スキームを導入します。また、パイプライン化された LoRA トレーニング中の GPU 使用率を高めるための新しい LoRA 効率的なオペレーターも導入しています。
私たちの広範な評価により、mLoRA は FSDP のような最先端の方法と比較して、微調整タスクの平均完了時間を大幅に (たとえば 30\%) 短縮できることが示されています。
さらに重要なのは、mLoRA により、より大きなモデル (たとえば、4 つの NVIDIA RTX A6000 48GB GPU 上の 2 つの Llama-2-13B モデル) の同時微調整が可能になりますが、これはメモリ要件が高いため FSDP では実現できません。
したがって、mLoRA は微調整の効率を高めるだけでなく、コスト効率の高い GPU でのアクセスも容易になります。
mLoRA は AntGroup の実稼働環境に導入されています。
要約(オリジナル)
Transformer-based, pre-trained large language models (LLMs) have demonstrated outstanding performance across diverse domains, particularly in the emerging {\em pretrain-then-finetune} paradigm. Low-Rank Adaptation (LoRA), a parameter-efficient fine-tuning method, is commonly used to adapt a base LLM to multiple downstream tasks. Further, LLM platforms enable developers to fine-tune multiple models and develop various domain-specific applications simultaneously. However, existing model parallelism schemes suffer from high communication overhead and inefficient GPU utilization when training multiple LoRA tasks across GPUs and machines. In this paper, we present mLoRA, a parallelism-efficient fine-tuning system designed for training multiple LoRA across GPUs and machines. mLoRA introduces a novel LoRA-aware pipeline parallelism scheme that efficiently pipelines independent LoRA adapters and their distinct fine-tuning stages across GPUs and machines, along with a new LoRA-efficient operator to enhance GPU utilization during pipelined LoRA training. Our extensive evaluation shows that mLoRA can significantly reduce average fine-tuning task completion time, e.g., by 30\%, compared to state-of-the-art methods like FSDP. More importantly, mLoRA enables simultaneous fine-tuning of larger models, e.g., two Llama-2-13B models on four NVIDIA RTX A6000 48GB GPUs, which is not feasible for FSDP due to high memory requirements. Hence, mLoRA not only increases fine-tuning efficiency but also makes it more accessible on cost-effective GPUs. mLoRA has been deployed in AntGroup’s production environment.
arxiv情報
著者 | Zhengmao Ye,Dengchun Li,Zetao Hu,Tingfeng Lan,Jian Sha,Sicong Zhang,Lei Duan,Jie Zuo,Hui Lu,Yuanchun Zhou,Mingjie Tang |
発行日 | 2024-09-18 13:07:28+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google