要約
低ランク適応 (LoRA) メソッドは、大規模言語モデル (LLM) を微調整するためのトレーニング可能なパラメーターの量を大幅に削減できますが、低ランクの重みを更新するには依然として高価なアクティベーション メモリが必要です。
LoRA レイヤーの数を減らしたり、アクティベーションの再計算を使用したりすると、微調整パフォーマンスに悪影響を及ぼしたり、計算オーバーヘッドが増加したりする可能性があります。
この研究では、パフォーマンスの低下や高価な再計算を行わずにアクティベーション メモリを削減する、メモリ効率の高い微調整手法である LoRA-FA を紹介します。
LoRA-FA は、各 LoRA レイヤーで $A$ の投影下方重みを凍結し、$B$ の上方投影重みを更新することを選択します。
これにより、LLM の微調整中にモデルの重みの変更が低ランク領域に確実に存在するようになり、フルランクの入力アクティベーションを保存する必要がなくなります。
当社では、複数のモデル タイプ (RoBERTa、T5、LLaMA) およびモデル スケールにわたって広範な実験を実施しています。
私たちの結果は、完全なパラメータ微調整や LoRA と比較して、LoRA-FA はさまざまなタスクにわたって常に緊密な微調整精度を達成できることを示しています。
さらに、LoRA-FA は、LoRA と比較して全体のメモリ コストを最大 1.4 倍 $ 削減できます。
要約(オリジナル)
The low-rank adaptation (LoRA) method can largely reduce the amount of trainable parameters for fine-tuning large language models (LLMs), however, it still requires expensive activation memory to update low-rank weights. Reducing the number of LoRA layers or using activation recomputation could harm the fine-tuning performance or increase the computational overhead. In this work, we present LoRA-FA, a memory-efficient fine-tuning method that reduces the activation memory without performance degradation and expensive recomputation. LoRA-FA chooses to freeze the projection-down weight of $A$ and update the projection-up weight of $B$ in each LoRA layer. It ensures the change of model weight reside in a low-rank space during LLMs fine-tuning, while eliminating the requirement to store full-rank input activations. We conduct extensive experiments across multiple model types (RoBERTa, T5, LLaMA) and model scales. Our results show that LoRA-FA can always achieve close fine-tuning accuracy across different tasks compared to full parameter fine-tuning and LoRA. Furthermore, LoRA-FA can reduce the overall memory cost by up to 1.4$\times$ compared to LoRA.
arxiv情報
著者 | Longteng Zhang,Lin Zhang,Shaohuai Shi,Xiaowen Chu,Bo Li |
発行日 | 2023-08-07 05:12:27+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google