要約
大規模な言語モデル(LLM)をトレーニングするという計算需要の増加は、より効率的な方法を必要とします。
量子化されたトレーニングは、これらのコストを削減するために低ビットの算術操作を可能にすることにより、有望なソリューションを提示します。
FP8精度は実現可能性を実証していますが、FP4のレバレッジは、重要な量子化誤差と限られた表現能力のために依然として課題です。
この作業では、LLMSの最初のFP4トレーニングフレームワークを紹介し、2つの重要な革新でこれらの課題に対処します。正確な重量更新のための微分可能な量子化推定器と、活性化の崩壊を防ぐための外れ値のクランプおよび補償戦略です。
安定性を確保するために、フレームワークは混合精度トレーニングスキームとベクトルごとの量子化を統合します。
実験結果は、FP4フレームワークがBF16およびFP8に匹敵する精度を達成し、最小限の劣化により、最大100Bトークンでトレーニングされた13BパラメーターLLMに効果的にスケーリングすることを示しています。
FP4をサポートする次世代ハードウェアの出現により、当社のフレームワークは、効率的な超低精度トレーニングの基盤を設定しています。
要約(オリジナル)
The growing computational demands of training large language models (LLMs) necessitate more efficient methods. Quantized training presents a promising solution by enabling low-bit arithmetic operations to reduce these costs. While FP8 precision has demonstrated feasibility, leveraging FP4 remains a challenge due to significant quantization errors and limited representational capacity. This work introduces the first FP4 training framework for LLMs, addressing these challenges with two key innovations: a differentiable quantization estimator for precise weight updates and an outlier clamping and compensation strategy to prevent activation collapse. To ensure stability, the framework integrates a mixed-precision training scheme and vector-wise quantization. Experimental results demonstrate that our FP4 framework achieves accuracy comparable to BF16 and FP8, with minimal degradation, scaling effectively to 13B-parameter LLMs trained on up to 100B tokens. With the emergence of next-generation hardware supporting FP4, our framework sets a foundation for efficient ultra-low precision training.
arxiv情報
著者 | Ruizhe Wang,Yeyun Gong,Xiao Liu,Guoshuai Zhao,Ziyue Yang,Baining Guo,Zhengjun Zha,Peng Cheng |
発行日 | 2025-01-28 18:04:50+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google