要約
大規模言語モデル(LLM)は目覚ましい成功を収めているが、サイズが大きくなるにつれ、メモリ使用量や計算コストに大きな問題が生じている。重みとアクティベーションの両方を量子化することで、これらの問題に対処することができ、きめ細かなブロック単位の量子化は、外れ値を軽減する有望なハードウェア支援ソリューションとして浮上している。しかし、既存の方法では、微妙なブロックデータ分布を捉えるのに苦労している。これに対処するため、我々は、より良いデータ表現のためにフォーマットブックからブロックごとに最適な数値フォーマットを割り当てる、ブロック単位のきめ細かい混合フォーマット技術であるBlockDialectを提案する。さらに、多様なデータ分布に適応するFP4バリアント(方言のようなもの)のフォーマットブックであるDialectFP4を紹介する。これを効率的に活用するために、オンラインDialectFP4活性化量子化のための2段階アプローチを提案する。重要なのは、DialectFP4は、低精度整数演算と互換性のあるスケーリングされた整数として表現可能な値を選択することで、ハードウェア効率を確保することである。BlockDialectは、MXFP4形式と比較してLLaMA3-8B(LLaMA2-7B)モデルで11.83%(7.56%)の精度向上を達成し、データあたりのビット使用量も少なく、フルパス行列乗算を量子化した場合でも全精度を5.46%(2.65%)下回るだけです。どのようにスケーリングするかよりもどのように表現するかに焦点を当てた我々の研究は、エネルギー効率の良いLLM推論のための有望な道を示している。
要約(オリジナル)
Large Language Models (LLMs) have achieved remarkable success, but their increasing size poses significant challenges in memory usage and computational costs. Quantizing both weights and activations can address these issues, with fine-grained block-wise quantization emerging as a promising hardware-supported solution to mitigate outliers. However, existing methods struggle to capture nuanced block data distributions. To address this, we propose BlockDialect, a block-wise fine-grained mixed format technique that assigns a per-block optimal number format from formatbook for better data representation. Additionally, we introduce DialectFP4, a formatbook of FP4 variants (akin to dialects) that adapt to diverse data distributions. To leverage this efficiently, we propose a two-stage approach for online DialectFP4 activation quantization. Importantly, DialectFP4 ensures hardware efficiency by selecting representable values as scaled integers compatible with low-precision integer arithmetic. BlockDialect achieves 11.83% (7.56%) accuracy gain on the LLaMA3-8B (LLaMA2-7B) model compared to MXFP4 format with lower bit usage per data, while being only 5.46% (2.65%) below full precision even when quantizing full-path matrix multiplication. Focusing on how to represent over how to scale, our work presents a promising path for energy-efficient LLM inference.
arxiv情報
著者 | Wonsuk Jang,Thierry Tambe |
発行日 | 2025-01-03 09:27:46+00:00 |
arxivサイト | arxiv_id(pdf) |