Extreme Compression of Large Language Models via Additive Quantization

要約

正確なオープンラージ言語モデル (LLM) の出現により、エンドユーザーのデバイス上での実行を可能にするパフォーマンスの高い量子化技術の開発競争が始まりました。
この論文では、マルチコードブック量子化 (MCQ) の古典的な手法の観点から、「極端な」LLM 圧縮の問題 (パラメータあたり 2 ~ 3 ビットなど、非常に低いビット数をターゲットとするものとして定義される) を再検討します。
AQLM と呼ばれる私たちのアルゴリズムは、情報検索のための古典的な加算量子化 (AQ) アプローチを一般化し、次の 2 つの革新によって最先端の LLM 圧縮を前進させます。1) 入力適応方式で重み行列の学習された加算量子化。
2) 各トランスフォーマー ブロックにわたるコードブック パラメーターの共同最適化。
大まかに言うと、AQLM は、パラメーターあたり 3 ビット未満に圧縮する場合に、精度対モデル サイズの点でパレート最適となる最初のスキームであり、極度の圧縮 (2 ビット) 領域におけるすべての既知のスキームを大幅に改善します。
さらに、AQLM は実用的です。トークン生成用に AQLM の高速 GPU および CPU 実装を提供します。これにより、はるかに小さいメモリ フットプリントで実行しながら、最適化された FP16 実装と同等またはそれを上回る速度を実現できます。

要約(オリジナル)

The emergence of accurate open large language models (LLMs) has led to a race towards performant quantization techniques which can enable their execution on end-user devices. In this paper, we revisit the problem of ‘extreme’ LLM compression-defined as targeting extremely low bit counts, such as 2 to 3 bits per parameter-from the point of view of classic methods in Multi-Codebook Quantization (MCQ). Our algorithm, called AQLM, generalizes the classic Additive Quantization (AQ) approach for information retrieval to advance the state-of-the-art in LLM compression, via two innovations: 1) learned additive quantization of weight matrices in input-adaptive fashion, and 2) joint optimization of codebook parameters across each transformer blocks. Broadly, AQLM is the first scheme that is Pareto optimal in terms of accuracy-vs-model-size when compressing to less than 3 bits per parameter, and significantly improves upon all known schemes in the extreme compression (2bit) regime. In addition, AQLM is practical: we provide fast GPU and CPU implementations of AQLM for token generation, which enable us to match or outperform optimized FP16 implementations for speed, while executing in a much smaller memory footprint.

arxiv情報

著者 Vage Egiazarian,Andrei Panferov,Denis Kuznedelev,Elias Frantar,Artem Babenko,Dan Alistarh
発行日 2024-09-11 07:48:26+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG パーマリンク