AWEQ: Post-Training Quantization with Activation-Weight Equalization for Large Language Models

要約

大規模言語モデル (LLM) は、さまざまなタスクにわたって優れたパフォーマンスを示しますが、膨大な計算コストとストレージ コストが伴います。
これらのモデルを量子化することは、この問題を軽減する効果的な方法です。
ただし、既存の方法では、モデルの精度とハードウェア効率のバランスを取るのに苦労しています。
ここで、追加のトレーニング オーバーヘッドを必要としないポストトレーニング手法である AWEQ を紹介します。
AWEQ は、超低ビット量子化と 8 ビット重み付けおよびアクティベーション (W8A8) 量子化の両方に優れています。
重み量子化はアクティベーション量子化よりも難しくないという観察があります。
AWEQ は、チャネル等化を使用してアクティベーション量子化の難しさを重みに変換し、両方の量子化の難しさのバランスを達成し、それによってパフォーマンスを最大化します。
量子化バイアス誤差を軽減するために等化方法をさらに改良し、モデルの堅牢性を確保しました。
LLaMA や OPT などの人気のあるモデルに対する広範な実験により、AWEQ が大規模モデルに対する既存のすべてのトレーニング後の量子化手法よりも優れていることが実証されました。

要約(オリジナル)

Large language models(LLMs) exhibit excellent performance across a variety of tasks, but they come with significant computational and storage costs. Quantizing these models is an effective way to alleviate this issue. However, existing methods struggle to strike a balance between model accuracy and hardware efficiency. This is where we introduce AWEQ, a post-training method that requires no additional training overhead. AWEQ excels in both ultra-low-bit quantization and 8-bit weight and activation (W8A8) quantization. There is an observation that weight quantization is less challenging than activation quantization. AWEQ transfers the difficulty of activation quantization to weights using channel equalization, achieving a balance between the quantization difficulties of both, and thereby maximizing performance. We have further refined the equalization method to mitigate quantization bias error, ensuring the robustness of the model. Extensive experiments on popular models such as LLaMA and OPT demonstrate that AWEQ outperforms all existing post-training quantization methods for large models.

arxiv情報

著者 Baisong Li,Xingwang Wang,Haixiao Xu
発行日 2023-11-07 15:36:18+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG パーマリンク