PrefixQuant: Static Quantization Beats Dynamic through Prefixed Outliers in LLMs

要約

量子化は、メモリ効率と推論速度を向上させて大規模言語モデル (LLM) を展開するために不可欠です。
アクティベーション量子化の既存の方法は、主にチャネルごとの外れ値に対処し、トークンごとの外れ値を無視することが多く、コストのかかるトークンごとの動的量子化への依存につながります。
これに対処するために、再トレーニングせずに外れ値トークンをオフラインで分離する新しい手法である PrefixQuant を導入します。
具体的には、PrefixQuant は高頻度の外れ値トークンを識別し、KV キャッシュ内でそれらにプレフィックスを付けます。これにより、推論中の外れ値トークンの生成が防止され、量子化が簡素化されます。
私たちの知る限り、PrefixQuant は、高価なトークンごとの動的量子化を上回る効率的なテンソルごとの静的量子化を可能にした最初の製品です。
たとえば、W4A4KV4 (4 ビットの重み、4 ビットのアクティベーション、および 4 ビットの KV キャッシュ) Llama-3-8B では、テンソルごとの静的量子化を備えた PrefixQuant は 7.43 WikiText2 の複雑度および 5 つの共通の 71.08% の平均精度を達成します。
センス推論タスクでは、QuaRot などの以前のトークンごとの動的量子化手法を上回り、パープレキシティが 0.98 向上し、精度が +5.98 ポイント向上します。
さらに、PrefixQuant を使用した W4A4 量子化モデルの推論速度は、FP16 モデルよりも 1.60 倍から 2.81 倍速く、QuaRot モデルを 1.2 倍から 1.3 倍上回っています。
コードは \url{https://github.com/ChenMnZ/PrefixQuant} で入手できます。

要約(オリジナル)

Quantization is essential for deploying Large Language Models (LLMs) by enhancing memory efficiency and inference speed. Existing methods for activation quantization mainly address channel-wise outliers, often neglecting token-wise outliers, leading to reliance on costly per-token dynamic quantization. To address this, we introduce PrefixQuant, a novel technique that isolates outlier tokens offline without re-training. Specifically, PrefixQuant identifies high-frequency outlier tokens and prefixes them in the KV cache, preventing the generation of outlier tokens during inference and simplifying quantization. To our knowledge, PrefixQuant is the first to enable efficient per-tensor static quantization to outperform expensive per-token dynamic quantization. For instance, in W4A4KV4 (4- bit weight, 4-bit activation, and 4-bit KV cache) Llama-3-8B, PrefixQuant with per-tensor static quantization achieves a 7.43 WikiText2 perplexity and 71.08% average accuracy on 5 common-sense reasoning tasks, outperforming previous per-token dynamic quantization methods like QuaRot with 0.98 perplexity improvement and +5.98 points accuracy. Additionally, the inference speed of W4A4 quantized models using PrefixQuant is 1.60x to 2.81x faster than FP16 models and exceeds QuaRot models by 1.2x to 1.3x. Our code is available at \url{https://github.com/ChenMnZ/PrefixQuant}.

arxiv情報

著者 Mengzhao Chen,Yi Liu,Jiahao Wang,Yi Bin,Wenqi Shao,Ping Luo
発行日 2024-10-07 17:59:35+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG パーマリンク