AWQ: Activation-aware Weight Quantization for LLM Compression and Acceleration

要約

大規模言語モデル (LLM) は、さまざまなタスクで優れたパフォーマンスを示していますが、天文学的なモデル サイズにより、サービスを提供するためのハードウェアの障壁 (メモリ サイズ) が上昇し、トークンの生成 (メモリ帯域幅) が遅くなります。
この論文では、LLM の低ビット重みのみの量子化に対するハードウェア フレンドリーなアプローチである、アクティベーションを意識した重み量子化 (AWQ) を提案します。
私たちの方法は、重みは同じように重要ではないという観察に基づいています。顕著な重みの 1% だけを保護するだけで、量子化誤差を大幅に減らすことができます。
次に、重みではなく活性化を観察することによって、顕著な重みを保護するチャネルごとの最適なスケーリングを探索することを提案します。
AWQ はバックプロパゲーションや再構成に依存しないため、キャリブレーション セットに過剰適合することなく、さまざまなドメインやモダリティでの LLM の汎化能力を適切に維持できます。
また、データ レイアウトの並べ替えに依存しないため、ハードウェアの効率が維持されます。
AWQ は、さまざまな言語モデリング、常識的な QA、およびドメイン固有のベンチマークに関する既存の作業よりも優れたパフォーマンスを発揮します。
一般化の改善により、命令調整型 LM および初めてマルチモーダル LM に対して優れた量子化パフォーマンスが実現しました。
また、AWQ を高速化するために、並べ替えのないオンライン逆量子化を備えた効率的なテンソル コア カーネルを実装し、GPTQ と比較して 1.45 倍の高速化を達成し、cuBLAS FP16 実装よりも 1.85 倍高速です。
私たちの方法は、効率的な展開のために LLM を 3/4 ビットに圧縮するターンキー ソリューションを提供します。

要約(オリジナル)

Large language models (LLMs) have shown excellent performance on various tasks, but the astronomical model size raises the hardware barrier for serving (memory size) and slows down token generation (memory bandwidth). In this paper, we propose Activation-aware Weight Quantization (AWQ), a hardware-friendly approach for LLM low-bit weight-only quantization. Our method is based on the observation that weights are not equally important: protecting only 1% of salient weights can greatly reduce quantization error. We then propose to search for the optimal per-channel scaling that protects the salient weights by observing the activation, not weights. AWQ does not rely on any backpropagation or reconstruction, so it can well preserve LLMs’ generalization ability on different domains and modalities, without overfitting to the calibration set; it also does not rely on any data layout reordering, maintaining the hardware efficiency. AWQ outperforms existing work on various language modeling, common sense QA, and domain-specific benchmarks. Thanks to better generalization, it achieves excellent quantization performance for instruction-tuned LMs and, for the first time, multi-modal LMs. We also implement efficient tensor core kernels with reorder-free online dequantization to accelerate AWQ, achieving a 1.45x speedup over GPTQ and is 1.85x faster than the cuBLAS FP16 implementation. Our method provides a turn-key solution to compress LLMs to 3/4 bits for efficient deployment.

arxiv情報

著者 Ji Lin,Jiaming Tang,Haotian Tang,Shang Yang,Xingyu Dang,Song Han
発行日 2023-06-01 17:59:10+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク