Fast and Efficient 2-bit LLM Inference on GPU: 2/4/16-bit in a Weight Matrix with Asynchronous Dequantization

要約

大規模言語モデル (LLM) は、さまざまなドメインで優れた能力を実証していますが、推論コストは高価です。
これまでの多くの研究では、量子化手法を利用して、レイテンシとメモリ消費量を削減することで LLM 推論コストを削減しています。
2 ビットの単精度重み量子化を適用すると 3% を超える精度の低下が生じるため、最先端の手法では LLM (Llama2-7b など) に混合精度手法を使用して精度を向上させています。
ただし、次のような課題がまだ存在します。 (1) 重みマトリックスの不均一な分布。
(2) まばらな外れ値の追加による大幅な速度低下。
(3) GPU での時間のかかる逆量子化操作。
これらの課題に取り組み、GPU 上で高速かつ効率的な LLM 推論を可能にするために、このホワイトペーパーでは次の手法を提案します。
(1) イントラウェイト混合精度量子化。
(2) 速度低下を最小限に抑えた排他的な 2 ビットのスパース外れ値。
(3) 非同期逆量子化。
私たちは、さまざまなモデル ファミリ (Llama3 など) とモデル サイズについて広範な実験を行っています。
無視できる損失で、さまざまなモデルのすべてのスケール/ゼロを考慮して、各重量で 2.91 ビットを達成します。
その結果、各重み行列の 2/4/16 混合精度の量子化と推論中の非同期逆量子化により、Llama2-7b のエンドツーエンドの高速化が達成され、元のモデルの 1.74 倍となり、
GPU 要件が少なくなり、ランタイム コストと総コストの両方が最大 2.53 倍と 2.29 倍になります。

要約(オリジナル)

Large language models (LLMs) have demonstrated impressive abilities in various domains while the inference cost is expensive. Many previous studies exploit quantization methods to reduce LLM inference cost by reducing latency and memory consumption. Applying 2-bit single-precision weight quantization brings >3% accuracy loss, so the state-of-the-art methods use mixed-precision methods for LLMs (e.g. Llama2-7b, etc.) to improve the accuracy. However, challenges still exist: (1) Uneven distribution in weight matrix. (2) Large speed degradation by adding sparse outliers. (3) Time-consuming dequantization operations on GPUs. To tackle these challenges and enable fast and efficient LLM inference on GPUs, we propose the following techniques in this paper. (1) Intra-weight mixed-precision quantization. (2) Exclusive 2-bit sparse outlier with minimum speed degradation. (3) Asynchronous dequantization. We conduct extensive experiments on different model families (e.g. Llama3, etc.) and model sizes. We achieve 2.91-bit for each weight considering all scales/zeros for different models with negligible loss. As a result, with our 2/4/16 mixed-precision quantization for each weight matrix and asynchronous dequantization during inference, our design achieves an end-to-end speedup for Llama2-7b is 1.74x over the original model, and we reduce both runtime cost and total cost by up to 2.53x and 2.29x with less GPU requirements.

arxiv情報

著者 Jinhao Li,Jiaming Xu,Shiyao Li,Shan Huang,Jun Liu,Yaoxiu Lian,Guohao Dai
発行日 2024-07-01 11:13:54+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.DC, cs.LG パーマリンク