要約
大規模言語モデル (LLM) は自然言語処理 (NLP) に革命をもたらしましたが、トレーニングには大量の GPU リソースが必要です。
LLM トレーニングの敷居を下げると、研究者の参加が促進され、学術界と社会の両方に利益がもたらされます。
既存のアプローチは、少数のパラメーターを調整または追加するパラメーター効率の高い微調整に焦点を当ててきましたが、限られたリソースで LLM のパラメーター全体を調整するという課題に取り組んだものはほとんどありません。
この研究では、勾配計算とパラメータ更新を 1 ステップで融合してメモリ使用量を削減する、新しいオプティマイザ LOw-Memory Optimization (LOMO) を提案します。
LOMO を既存のメモリ節約技術と統合することにより、標準的なアプローチ (DeepSpeed ソリューション) と比較してメモリ使用量を 10.8% に削減します。
その結果、私たちのアプローチでは、それぞれ 24GB メモリを搭載した 8 つの RTX 3090 を搭載した単一マシン上で 65B モデルの完全なパラメーター微調整が可能になります。
要約(オリジナル)
Large Language Models (LLMs) have revolutionized Natural Language Processing (NLP) but demand massive GPU resources for training. Lowering the threshold for LLMs training would encourage greater participation from researchers, benefiting both academia and society. While existing approaches have focused on parameter-efficient fine-tuning, which tunes or adds a small number of parameters, few have addressed the challenge of tuning the full parameters of LLMs with limited resources. In this work, we propose a new optimizer, LOw-Memory Optimization (LOMO), which fuses the gradient computation and the parameter update in one step to reduce memory usage. By integrating LOMO with existing memory saving techniques, we reduce memory usage to 10.8% compared to the standard approach (DeepSpeed solution). Consequently, our approach enables the full parameter fine-tuning of a 65B model on a single machine with 8 RTX 3090, each with 24GB memory.
arxiv情報
著者 | Kai Lv,Yuqing Yang,Tengxiao Liu,Qinghui Gao,Qipeng Guo,Xipeng Qiu |
発行日 | 2023-06-16 11:37:15+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google