Gradient Weight-normalized Low-rank Projection for Efficient LLM Training

要約

大規模言語モデル (LLM) は、さまざまなタスクにわたって顕著なパフォーマンスを示していますが、計算リソースに対する需要の増大により、特に下流タスクでの完全な微調整の広範な利用において、重大な課題が生じています。
これに対処するために、パラメータ効率の高い微調整 (PEFT) 手法が開発されましたが、完全な微調整と比較してパフォーマンスが劣ることが多く、メモリ効率に問題があります。
この研究では、完全な微調整と同等のパフォーマンスを維持しながら、パラメーターとメモリの効率の両方を向上させる新しいアプローチである、Gradient Weight-Normalized Low-Rank Projection (GradNormLoRP) を導入します。
GradNormLoRP は重み行列を正規化して勾配調整を改善し、最適化中の収束を促進します。
さらに、重み行列と勾配行列に低ランクの近似を適用し、トレーニング中のメモリ使用量を大幅に削減します。
広範な実験により、当社の 8 ビット GradNormLoRP がオプティマイザーのメモリ使用量を最大 89.5% 削減し、追加の推論コストを発生させることなく、NVIDIA RTX 4090 などのコンシューマレベルの GPU 上で LLaMA 7B などの大規模な LLM の事前トレーニングを可能にすることが実証されました。
さらに、GradNormLoRP は、タスクの微調整において、既存の低ランクのメソッドよりも優れたパフォーマンスを発揮します。
たとえば、ランク 8 のすべての GLUE タスクで RoBERTa モデルを微調整すると、GradNormLoRP は平均スコア 80.65 を達成し、LoRA のスコア 79.23 を上回りました。
これらの結果は、GradNormLoRP が効率的な LLM の事前トレーニングと微調整のための有望な代替手段であることを強調しています。
ソースコードと付録: https://github.com/Jhhuangkay/Gradient-Weight-normalized-Low-rank-Projection-for-Efficient-LLM-Training

要約(オリジナル)

Large Language Models (LLMs) have shown remarkable performance across various tasks, but the escalating demands on computational resources pose significant challenges, particularly in the extensive utilization of full fine-tuning for downstream tasks. To address this, parameter-efficient fine-tuning (PEFT) methods have been developed, but they often underperform compared to full fine-tuning and struggle with memory efficiency. In this work, we introduce Gradient Weight-Normalized Low-Rank Projection (GradNormLoRP), a novel approach that enhances both parameter and memory efficiency while maintaining comparable performance to full fine-tuning. GradNormLoRP normalizes the weight matrix to improve gradient conditioning, facilitating better convergence during optimization. Additionally, it applies low-rank approximations to the weight and gradient matrices, significantly reducing memory usage during training. Extensive experiments demonstrate that our 8-bit GradNormLoRP reduces optimizer memory usage by up to 89.5% and enables the pre-training of large LLMs, such as LLaMA 7B, on consumer-level GPUs like the NVIDIA RTX 4090, without additional inference costs. Moreover, GradNormLoRP outperforms existing low-rank methods in fine-tuning tasks. For instance, when fine-tuning the RoBERTa model on all GLUE tasks with a rank of 8, GradNormLoRP achieves an average score of 80.65, surpassing LoRA’s score of 79.23. These results underscore GradNormLoRP as a promising alternative for efficient LLM pre-training and fine-tuning. Source code and Appendix: https://github.com/Jhhuangkay/Gradient-Weight-normalized-Low-rank-Projection-for-Efficient-LLM-Training

arxiv情報

著者 Jia-Hong Huang,Yixian Shen,Hongyi Zhu,Stevan Rudinac,Evangelos Kanoulas
発行日 2024-12-27 12:23:39+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG パーマリンク