EdgeQAT: Entropy and Distribution Guided Quantization-Aware Training for the Acceleration of Lightweight LLMs on the Edge


さまざまな分野で大規模言語モデル (LLM) が目覚ましい進歩を遂げているにもかかわらず、エッジ デバイスでの LLM の広範なアプリケーションは、パラメータと計算が膨大であるため制限されています。
これに対処するために、効率的な計算と高速な推論を備えた軽量 LLM を生成するために量子化が一般的に採用されています。
ただし、ポストトレーニング量子化 (PTQ) メソッドは、重み、アクティベーション、および KV キャッシュをまとめて 8 ビット未満に量子化すると、品質が大幅に低下します。
さらに、多くの量子化対応トレーニング (QAT) 作品はモデルの重みを量子化し、アクティベーションはそのままにしており、エッジでの推論高速化のための量子化の可能性を十分に活用できません。
このペーパーでは、エッジ デバイス上で推論の高速化を実現するための軽量 LLM の最適化のための、エントロピーおよび分散ガイド付き QAT である EdgeQAT を提案します。
まず、量子化のパフォーマンス低下は、量子化されたアテンション マップの情報の歪みが主な原因であることを特定します。これは、量子化されたクエリとセルフ アテンション メカニズムのキーの異なる分布によって実証されます。
次に、情報の歪みを軽減するために、エントロピーと分布に基づく QAT が提案されます。
さらに、複数のエッジ デバイスにわたって、FP16 の同等品と比較して最大 2.37 倍のオンデバイス スピードアップを達成し、画期的な進歩を示しています。


Despite the remarkable strides of Large Language Models (LLMs) in various fields, the wide applications of LLMs on edge devices are limited due to their massive parameters and computations. To address this, quantization is commonly adopted to generate lightweight LLMs with efficient computations and fast inference. However, Post-Training Quantization (PTQ) methods dramatically degrade in quality when quantizing weights, activations, and KV cache together to below 8 bits. Besides, many Quantization-Aware Training (QAT) works quantize model weights, leaving the activations untouched, which do not fully exploit the potential of quantization for inference acceleration on the edge. In this paper, we propose EdgeQAT, the Entropy and Distribution Guided QAT for the optimization of lightweight LLMs to achieve inference acceleration on Edge devices. We first identify that the performance drop of quantization primarily stems from the information distortion in quantized attention maps, demonstrated by the different distributions in quantized query and key of the self-attention mechanism. Then, the entropy and distribution guided QAT is proposed to mitigate the information distortion. Moreover, we design a token importance-aware adaptive method to dynamically quantize the tokens with different bit widths for further optimization and acceleration. Our extensive experiments verify the substantial improvements with our framework across various datasets. Furthermore, we achieve an on-device speedup of up to 2.37x compared with its FP16 counterparts across multiple edge devices, signaling a groundbreaking advancement.


著者 Xuan Shen,Zhenglun Kong,Changdi Yang,Zhaoyang Han,Lei Lu,Peiyan Dong,Cheng Lyu,Chih-hsiang Li,Xuehang Guo,Zhihao Shu,Wei Niu,Miriam Leeser,Pu Zhao,Yanzhi Wang
発行日 2024-02-16 16:10:38+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG パーマリンク