Fast Matrix Multiplications for Lookup Table-Quantized LLMs

要約

大規模言語モデル (LLM) のデプロイメントはメモリ帯域幅によって制約されることが多く、主なボトルネックはモデル パラメータを GPU のグローバル メモリからそのレジスタに転送するコストです。
逆量子化と matmul 操作を融合するカスタム カーネルと組み合わせると、重みのみの量子化により、メモリの移動量が削減され、より高速な推論が可能になります。
ただし、重み量子化 LLM 用の高性能カーネルの開発には、特に不均一なルックアップ テーブル (LUT) 量子化で重みが不均等に割り切れないビット幅 (3 ビットなど) に圧縮される場合に、大きな課題が生じます。
このペーパーでは、LUT 量子化 LLM 用の柔軟なルックアップ テーブル エンジンである FLUTE について説明します。このエンジンは、量子化重み行列のオフライン再構築を使用してアンパッキングに関連するビット操作を最小限に抑え、ルックアップ テーブルのベクトル化と複製を使用して共有メモリ帯域幅の制約を緩和します。
バッチ サイズが 32 未満、量子化グループ サイズが 128 (LLM 推論では通常) の場合、FLUTE カーネルは既存の GEMM カーネルよりも 2 ~ 4 倍高速になります。
FLUTE のアプリケーションとして、ルックアップ テーブル ベースの NormalFloat 量子化への簡単な拡張を検討し、それを LLaMA3 をさまざまな構成に量子化するために適用し、強力なベースラインに対して競争力のある量子化パフォーマンスを獲得しながら、エンドツーエンドのスループットを 1.5 ~ 2 倍向上させます。

要約(オリジナル)

The deployment of large language models (LLMs) is often constrained by memory bandwidth, where the primary bottleneck is the cost of transferring model parameters from the GPU’s global memory to its registers. When coupled with custom kernels that fuse the dequantization and matmul operations, weight-only quantization can thus enable faster inference by reducing the amount of memory movement. However, developing high-performance kernels for weight-quantized LLMs presents substantial challenges, especially when the weights are compressed to non-evenly-divisible bit widths (e.g., 3 bits) with non-uniform, lookup table (LUT) quantization. This paper describes FLUTE, a flexible lookup table engine for LUT-quantized LLMs, which uses offline restructuring of the quantized weight matrix to minimize bit manipulations associated with unpacking, and vectorization and duplication of the lookup table to mitigate shared memory bandwidth constraints. At batch sizes < 32 and quantization group size of 128 (typical in LLM inference), the FLUTE kernel can be 2-4x faster than existing GEMM kernels. As an application of FLUTE, we explore a simple extension to lookup table-based NormalFloat quantization and apply it to quantize LLaMA3 to various configurations, obtaining competitive quantization performance against strong baselines while obtaining an end-to-end throughput increase of 1.5 to 2 times.

arxiv情報

著者 Han Guo,William Brandon,Radostin Cholakov,Jonathan Ragan-Kelley,Eric P. Xing,Yoon Kim
発行日 2024-07-15 17:55:42+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG パーマリンク