要約
大規模言語モデル(LLM)は目覚ましい成功を収めているが、サイズが大きくなるにつれ、メモリ使用量や計算コストに大きな問題が生じている。重みとアクティベーションの両方を量子化することで、これらの問題に対処することができ、きめ細かなブロック単位の量子化は、外れ値を軽減する有望なハードウェア支援ソリューションとして浮上している。しかし、既存の方法では、微妙なブロックデータ分布を捉えるのに苦労している。これに対処するため、我々は、より良いデータ表現のためにフォーマットブックからブロックごとに最適な数値フォーマットを割り当てる、ブロック単位のきめ細かい混合フォーマット技術であるBlockDialectを提案する。さらに、多様なデータ分布に適応するFP4バリアント(方言のようなもの)のフォーマットブックであるDialectFP4を紹介する。重要な点は、DialectFP4は、低精度整数演算と互換性のあるスケーリングされた整数として表現可能な値を選択することで、ハードウェア効率を確保することである。さらに、オンラインDialectFP4活性化量子化のための2段階アプローチを提案する。BlockDialectは、LLaMA3-8B(LLaMA2-7B)モデルにおいて、MXFP4形式と同等のデータあたりのビット使用量で、11.40%(6.90%)の精度向上を達成する一方、フルパス行列乗算を量子化した場合でも、全精度を5.89%(3.31%)下回るのみである。どのようにスケーリングするかよりもどのように表現するかに焦点を当てた我々の研究は、エネルギー効率の良いLLM推論のための有望な道を示している。
要約(オリジナル)
Large Language Models (LLMs) have achieved remarkable success, but their increasing size poses significant challenges in memory usage and computational costs. Quantizing both weights and activations can address these issues, with fine-grained block-wise quantization emerging as a promising hardware-supported solution to mitigate outliers. However, existing methods struggle to capture nuanced block data distributions. To address this, we propose BlockDialect, a block-wise fine-grained mixed format technique that assigns a per-block optimal number format from formatbook for better data representation. Additionally, we introduce DialectFP4, a formatbook of FP4 variants (akin to dialects) that adapt to diverse data distributions. Importantly, DialectFP4 ensures hardware efficiency by selecting representable values as scaled integers compatible with low-precision integer arithmetic. Furthermore, we propose a two-stage approach for online DialectFP4 activation quantization. BlockDialect achieves 11.40% (6.90%) accuracy gain on the LLaMA3-8B (LLaMA2-7B) model compared to MXFP4 format with a comparable bit usage per data, while being only 5.89% (3.31%) below full precision even when quantizing full-path matrix multiplication. Focusing on how to represent over how to scale, our work presents a promising path for energy-efficient LLM inference.
arxiv情報
著者 | Wonsuk Jang,Thierry Tambe |
発行日 | 2025-01-02 08:57:00+00:00 |
arxivサイト | arxiv_id(pdf) |