要約
このペーパーでは、大規模言語モデル (LLM) を効率的にトレーニングするための FP8 低ビット データ形式について検討します。
私たちの重要な洞察は、LLM トレーニングにおける勾配やオプティマイザーの状態などのほとんどの変数は、モデルの精度を損なうことなく、ハイパーパラメーターの変更を必要とせずに低精度のデータ形式を使用できるということです。
具体的には、LLM をトレーニングするための新しい FP8 自動混合精度フレームワークを提案します。
このフレームワークは、LLM の混合精度および分散並列トレーニングを合理化するために 3 つのレベルの FP8 利用を提供します。
8 ビットの勾配、オプティマイザーの状態、分散学習が段階的に組み込まれています。
実験結果によると、H100 GPU プラットフォームでの GPT-175B モデルのトレーニング中に、FP8 混合精度トレーニング フレームワークは実メモリ使用量の 39% という大幅な削減を達成しただけでなく、広く採用されている BF16 フレームワークよりも 75% 高速に実行されたことがわかりました (
つまり、Megatron-LM)、Nvidia Transformer Engine の速度を 37% 上回っています。
これにより、大規模な基礎モデルのトレーニング コストが大幅に削減されます。
さらに、FP8 混合精度トレーニング方法論は一般的なものです。
LLM 命令チューニングや人間のフィードバックによる強化学習などの他のタスクにもシームレスに適用でき、微調整費用を節約できます。
FP8 低精度トレーニング フレームワークは、{https://github.com/Azure/MS-AMP}{aka.ms/MS.AMP} でオープンソース化されています。
要約(オリジナル)
In this paper, we explore FP8 low-bit data formats for efficient training of large language models (LLMs). Our key insight is that most variables, such as gradients and optimizer states, in LLM training can employ low-precision data formats without compromising model accuracy and requiring no changes to hyper-parameters. Specifically, we propose a new FP8 automatic mixed-precision framework for training LLMs. This framework offers three levels of FP8 utilization to streamline mixed-precision and distributed parallel training for LLMs. It gradually incorporates 8-bit gradients, optimizer states, and distributed learning in an incremental manner. Experiment results show that, during the training of GPT-175B model on H100 GPU platform, our FP8 mixed-precision training framework not only achieved a remarkable 39% reduction in real memory usage but also ran 75% faster than the widely adopted BF16 framework (i.e., Megatron-LM), surpassing the speed of Nvidia Transformer Engine by 37%. This largely reduces the training costs for large foundation models. Furthermore, our FP8 mixed-precision training methodology is generic. It can be seamlessly applied to other tasks such as LLM instruction tuning and reinforcement learning with human feedback, offering savings in fine-tuning expenses. Our FP8 low-precision training framework is open-sourced at {https://github.com/Azure/MS-AMP}{aka.ms/MS.AMP}.
arxiv情報
著者 | Houwen Peng,Kan Wu,Yixuan Wei,Guoshuai Zhao,Yuxiang Yang,Ze Liu,Yifan Xiong,Ziyue Yang,Bolin Ni,Jingcheng Hu,Ruihang Li,Miaosen Zhang,Chen Li,Jia Ning,Ruizhe Wang,Zheng Zhang,Shuguang Liu,Joe Chau,Han Hu,Peng Cheng |
発行日 | 2023-12-19 12:27:58+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google