Quartet: Native FP4 Training Can Be Optimal for Large Language Models

要約

大規模な言語モデル(LLMS)の急速な進歩は、計算需要の前例のない増加と並行しており、最先端のモデルのトレーニングコストが数か月ごとに倍増しています。
低精度で直接トレーニングモデルは、計算スループットとエネルギー効率の両方を改善することにより、ソリューションを提供します。
具体的には、Nvidiaの最近のBlackwell Architectureは、非常に低精度の操作、特にFP4バリアントを促進し、実質的な効率性の向上を約束しています。
しかし、FP4精度でLLMをトレーニングするための現在のアルゴリズムは、重大な精度の分解に直面し、多くの場合、混合精通のフォールバックに依存しています。
このホワイトペーパーでは、ハードウェアがサポートするFP4トレーニングを体系的に調査し、カルテットを導入します。カルテットは、低精度で実行されるすべての主要な計算(線形層など)で正確でエンドツーエンドのFP4トレーニングを可能にする新しいアプローチを導入します。
Llama型モデルに関する広範な評価を通じて、さまざまなビット幅にわたってパフォーマンストレードオフを定量化し、Quartetと呼ばれる精度VSコンパージュの観点から「最適に近い」低精度トレーニング手法を特定できるようにする新しい低参照スケーリング法を明らかにします。
Nvidia Blackwell GPUに合わせた最適化されたCudaカーネルを使用してカルテットを実装し、FP4精度の最先端の精度を達成できることを示し、10億個のモデルを正常にトレーニングします。
私たちの方法は、完全なFP4ベースのトレーニングが標準科学およびFP8トレーニングの競争力のある代替手段であることを示しています。
私たちのコードは、https://github.com/ist-daslab/quartetで入手できます。

要約(オリジナル)

The rapid advancement of large language models (LLMs) has been paralleled by unprecedented increases in computational demands, with training costs for state-of-the-art models doubling every few months. Training models directly in low-precision arithmetic offers a solution, by improving both computational throughput and energy efficiency. Specifically, NVIDIA’s recent Blackwell architecture facilitates extremely low-precision operations, specifically FP4 variants, promising substantial efficiency gains. Yet, current algorithms for training LLMs in FP4 precision face significant accuracy degradation and often rely on mixed-precision fallbacks. In this paper, we systematically investigate hardware-supported FP4 training and introduce Quartet, a new approach enabling accurate, end-to-end FP4 training with all the major computations (in e.g. linear layers) being performed in low precision. Through extensive evaluations on Llama-type models, we reveal a new low-precision scaling law that quantifies performance trade-offs across varying bit-widths and allows us to identify a ‘near-optimal’ low-precision training technique in terms of accuracy-vs-computation, called Quartet. We implement Quartet using optimized CUDA kernels tailored for NVIDIA Blackwell GPUs, and show that it can achieve state-of-the-art accuracy for FP4 precision, successfully training billion-scale models. Our method demonstrates that fully FP4-based training is a competitive alternative to standard-precision and FP8 training. Our code is available at https://github.com/IST-DASLab/Quartet.

arxiv情報

著者 Roberto L. Castro,Andrei Panferov,Soroush Tabesh,Oliver Sieberling,Jiale Chen,Mahdi Nikdan,Saleh Ashkboos,Dan Alistarh
発行日 2025-05-20 17:55:50+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG パーマリンク