Pushing the Limits of Large Language Model Quantization via the Linearity Theorem

要約

大規模な言語モデルを量子化することは、メモリと計算コストを削減する標準的な方法となっています。
通常、既存の方法は、問題を個々の層ごとのサブ問題に分解し、さまざまな指標で測定される層ごとのエラーを最小限に抑えることに重点を置いています。
しかし、このアプローチには理論的な正当性が現時点では不足しており、使用される指標は最適ではない可能性があります。
この論文では、層ごとの $\ell_2$ 再構成誤差と量子化によるモデルの複雑さの増加との間の直接的な関係を確立する「線形定理」を提示します。
この洞察により、次の 2 つの新しいアプリケーションが可能になります。(1) アダマール回転と MSE 最適グリッドを使用したシンプルなデータフリー LLM 量子化手法 (HIGGS と呼ばれる)。これは、非常に人気のある NF4 量子化形式などのこれまでのすべてのデータフリー アプローチよりも優れています。(2)
) 中ビット幅領域での所定の圧縮制約に一致する不均一なレイヤーごとの量子化レベルを見つける問題に対する最適な解決策。動的計画法への還元によって得られます。
実用面では、Llama-3.1 および 3.2 ファミリのモデル、および Qwen ファミリ モデルでの精度と圧縮のトレードオフの改善を実証します。
さらに、私たちの方法がさまざまなバッチサイズの GPU カーネルに関して効率的にサポートされ、LLM のデータフリー量子化と不均一量子化の両方を前進させることができることを示します。

要約(オリジナル)

Quantizing large language models has become a standard way to reduce their memory and computational costs. Typically, existing methods focus on breaking down the problem into individual layer-wise sub-problems, and minimizing per-layer error, measured via various metrics. Yet, this approach currently lacks theoretical justification and the metrics employed may be sub-optimal. In this paper, we present a ‘linearity theorem’ establishing a direct relationship between the layer-wise $\ell_2$ reconstruction error and the model perplexity increase due to quantization. This insight enables two novel applications: (1) a simple data-free LLM quantization method using Hadamard rotations and MSE-optimal grids, dubbed HIGGS, which outperforms all prior data-free approaches such as the extremely popular NF4 quantized format, and (2) an optimal solution to the problem of finding non-uniform per-layer quantization levels which match a given compression constraint in the medium-bitwidth regime, obtained by reduction to dynamic programming. On the practical side, we demonstrate improved accuracy-compression trade-offs on Llama-3.1 and 3.2-family models, as well as on Qwen-family models. Further, we show that our method can be efficiently supported in terms of GPU kernels at various batch sizes, advancing both data-free and non-uniform quantization for LLMs.

arxiv情報

著者 Vladimir Malinovskii,Andrei Panferov,Ivan Ilin,Han Guo,Peter Richtárik,Dan Alistarh
発行日 2024-11-26 15:35:44+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG パーマリンク