LCQ: Low-Rank Codebook based Quantization for Large Language Models

要約

大規模な言語モデル〜(LLMS)は最近、多くのタスクで有望なパフォーマンスを実証しています。
ただし、LLMSの高いストレージおよび計算コストは​​、LLMを展開するための課題となっています。
重量量子化は、モデル圧縮に広く使用されており、ストレージと計算コストの両方を削減できます。
LLMの既存の体重量子化方法のほとんどは、量子化にランク1コードブックを使用します。これにより、圧縮率が高い場合に実質的な精度損失が生じます。
この論文では、LLMS用の低ランクコードブックベースの量子化〜(LCQ)と呼ばれる新しい重量量子化法を提案します。
LCQは低ランクのコードブックを採用していますが、そのランクは量子化のために1より大きくなる可能性があります。
実験では、LCQが既存のメソッドよりも優れた精度を達成できることを示しています。

要約(オリジナル)

Large language models~(LLMs) have recently demonstrated promising performance in many tasks. However, the high storage and computational cost of LLMs has become a challenge for deploying LLMs. Weight quantization has been widely used for model compression, which can reduce both storage and computational cost. Most existing weight quantization methods for LLMs use a rank-one codebook for quantization, which results in substantial accuracy loss when the compression ratio is high. In this paper, we propose a novel weight quantization method, called low-rank codebook based quantization~(LCQ), for LLMs. LCQ adopts a low-rank codebook, the rank of which can be larger than one, for quantization. Experiments show that LCQ can achieve better accuracy than existing methods with a negligibly extra storage cost.

arxiv情報

著者 Wen-Pu Cai,Ming-Yang Li,Wu-Jun Li
発行日 2025-02-10 15:04:53+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG パーマリンク