要約
大規模言語モデル (LLM) は、最近、多くのタスクで有望なパフォーマンスを実証しています。
ただし、LLM のストレージと計算コストが高いことが、LLM の導入の課題となっています。
重み量子化はモデル圧縮に広く使用されており、ストレージと計算コストの両方を削減できます。
LLM の既存の重み量子化方法のほとんどは、量子化にランク 1 コードブックを使用するため、圧縮率が高い場合には大幅な精度の低下が生じます。
この論文では、LLM のための低ランク コードブック ベースの量子化 (LCQ) と呼ばれる新しい重み量子化方法を提案します。
LCQ は、量子化にランクが 1 より大きくなる可能性がある低ランク コードブックを採用します。
実験によると、LCQ は、追加のストレージ コストを無視して、既存の方法よりも高い精度を達成できることが示されています。
要約(オリジナル)
Large language models~(LLMs) have recently demonstrated promising performance in many tasks. However, the high storage and computational cost of LLMs has become a challenge for deploying LLMs. Weight quantization has been widely used for model compression, which can reduce both storage and computational cost. Most existing weight quantization methods for LLMs use a rank-one codebook for quantization, which results in substantial accuracy loss when the compression ratio is high. In this paper, we propose a novel weight quantization method, called low-rank codebook based quantization~(LCQ), for LLMs. LCQ adopts a low-rank codebook, the rank of which can be larger than one, for quantization. Experiments show that LCQ can achieve better accuracy than existing methods with a negligibly extra storage cost.
arxiv情報
著者 | Wen-Pu Cai,Wu-Jun Li |
発行日 | 2024-05-31 16:21:05+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google