Enabling Fast 2-bit LLM on GPUs: Memory Alignment and Asynchronous Dequantization

要約

大規模言語モデル (LLM) は、さまざまなドメインで優れた能力を実証していますが、推論コストは高価です。
最先端の方法では、主流の LLM に 2 ビット量子化が使用されます。
ただし、次のような課題がまだ存在します。 (1) 2 ビット量子化の無視できない精度損失。
重みはグループごとに量子化されますが、一部のグループでは重みの範囲が大きくなり、大きな量子化誤差と無視できない精度の損失が発生します(たとえば、GPTQ および Greenbit の 2 ビット量子化を使用した Llama2-7b では >3%)。
(2) 4 ビットの重みを追加することによる限定的な精度の向上。
4 ビットの重みを 10% 追加して平均ビットを増やしても、量子化された Llama2-7b では精度が 0.5% 未満向上するだけです。
(3) GPU での時間のかかる逆量子化操作。
逆量子化操作により実行時間が 50% を超え、LLM 推論コストの削減の可能性が妨げられます。
これらの課題に取り組むために、私たちは次の手法を提案します: (1) GPU でのメモリ アライメントを考慮して 4 ビットを使用して、より大きな範囲のグループのごく一部のみを量子化します。(2) GPU での非同期逆量子化を設計します。
最大 3.92 倍のスピードアップ。
私たちはさまざまなサイズのモデルで広範な実験を行っています。
各重みで 2.85 ビットを達成し、Llama2-7b のエンドツーエンドのスピードアップは元のモデルの 1.74 倍であり、GPU 要件を軽減しながらランタイム コストとハードウェア コストの両方を最大 2.70 倍と 2.81 倍削減します。

要約(オリジナル)

Large language models (LLMs) have demonstrated impressive abilities in various domains while the inference cost is expensive. The state-of-the-art methods use 2-bit quantization for mainstream LLMs. However, challenges still exist: (1) Nonnegligible accuracy loss for 2-bit quantization. Weights are quantized by groups, while the ranges of weights are large in some groups, resulting in large quantization errors and nonnegligible accuracy loss (e.g. >3% for Llama2-7b with 2-bit quantization in GPTQ and Greenbit). (2) Limited accuracy improvement by adding 4-bit weights. Increasing 10% extra average bit more 4-bit weights only leads to <0.5% accuracy improvement on a quantized Llama2-7b. (3) Time-consuming dequantization operations on GPUs. The dequantization operations lead to >50% execution time, hindering the potential of reducing LLM inference cost. To tackle these challenges, we propose the following techniques: (1) We only quantize a small fraction of groups with the larger range using 4-bit with memory alignment consideration on GPUs.(2) We design the asynchronous dequantization on GPUs, leading to up to 3.92X speedup. We conduct extensive experiments on different model sizes. We achieve 2.85-bit for each weight and the end-to-end speedup for Llama2-7b is 1.74X over the original model, and we reduce both runtime cost and hardware cost by up to 2.70X and 2.81X with less GPU requirements.

arxiv情報

著者 Jinhao Li,Shiyao Li,Jiaming Xu,Shan Huang,Yaoxiu Lian,Jun Liu,Yu Wang,Guohao Dai
発行日 2023-12-13 13:50:45+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.DC, cs.LG パーマリンク