AWQ: Activation-aware Weight Quantization for LLM Compression and Acceleration

要約

大規模言語モデル (LLM) は、数多くの AI アプリケーションを変革してきました。
オンデバイス LLM の重要性はますます高まっています。LLM をエッジ デバイス上でローカルに実行すると、クラウド コンピューティングのコストが削減され、ユーザーのプライバシーが保護されます。
ただし、天文学的なモデルのサイズと限られたハードウェア リソースにより、導入には重大な課題が生じます。
私たちは、LLM の低ビット重みのみの量子化に対するハードウェアに優しいアプローチである、アクティベーションを意識した重み量子化 (AWQ) を提案します。
AWQ は、LLM 内のすべての重みが同じように重要であるわけではないことを発見しました。
1% の顕著な重みを保護するだけで、量子化エラーを大幅に減らすことができます。
顕著なウェイト チャネルを特定するには、ウェイトではなくアクティベーション分布を参照する必要があります。
ハードウェア効率の悪い混合精度の量子化を回避するために、顕著なチャネルをスケールアップすることで量子化誤差を低減できることが数学的に導出されます。
AWQ は、同等の変換を使用して顕著なウェイト チャネルをスケーリングして保護します。
スケールは、オフラインでアクティベーション統計を収集することによって決定されます。
AWQ はバックプロパゲーションや再構成に依存しないため、キャリブレーション セットを過剰適合させることなく、さまざまなドメインやモダリティに一般化します。
AWQ は、さまざまな言語モデリングやドメイン固有のベンチマーク (コーディングと数学) に関する既存の研究よりも優れたパフォーマンスを発揮します。
一般化の改善により、命令調整型 LM および初めてマルチモーダル LM に対して優れた量子化パフォーマンスが実現しました。
AWQ と並行して、4 ビットのオンデバイス LLM/VLM に合わせた効率的で柔軟な推論フレームワークである TinyChat を実装します。
カーネル フュージョンとプラットフォーム対応のウェイト パッキングにより、TinyChat はデスクトップとモバイル GPU の両方で Huggingface FP16 実装と比較して 3 倍以上の高速化を実現します。
また、モバイル GPU での 70B Llama-2 モデルの展開も民主化されます。

要約(オリジナル)

Large language models (LLMs) have transformed numerous AI applications. On-device LLM is becoming increasingly important: running LLMs locally on edge devices can reduce the cloud computing cost and protect users’ privacy. However, the astronomical model size and the limited hardware resource pose significant deployment challenges. We propose Activation-aware Weight Quantization (AWQ), a hardware-friendly approach for LLM low-bit weight-only quantization. AWQ finds that not all weights in an LLM are equally important. Protecting only 1% salient weights can greatly reduce quantization error. To identify salient weight channels, we should refer to the activation distribution, not weights. To avoid the hardware-inefficient mix-precision quantization, we mathematically derive that scaling up the salient channels can reduce the quantization error. AWQ employs an equivalent transformation to scale the salient weight channels to protect them. The scale is determined by collecting the activation statistics offline. AWQ does not rely on any backpropagation or reconstruction, so it generalizes to different domains and modalities without overfitting the calibration set. AWQ outperforms existing work on various language modeling and domain-specific benchmarks (coding and math). Thanks to better generalization, it achieves excellent quantization performance for instruction-tuned LMs and, for the first time, multi-modal LMs. Alongside AWQ, we implement TinyChat, an efficient and flexible inference framework tailored for 4-bit on-device LLM/VLMs. With kernel fusion and platform-aware weight packing, TinyChat offers more than 3x speedup over the Huggingface FP16 implementation on both desktop and mobile GPUs. It also democratizes the deployment of the 70B Llama-2 model on mobile GPUs.

arxiv情報

著者 Ji Lin,Jiaming Tang,Haotian Tang,Shang Yang,Wei-Ming Chen,Wei-Chen Wang,Guangxuan Xiao,Xingyu Dang,Chuang Gan,Song Han
発行日 2024-07-18 17:51:33+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク