ClusComp: A Simple Paradigm for Model Compression and Efficient Finetuning

要約

大規模な言語モデル(LLMS)スケールとして、モデルの圧縮はエッジの展開とアクセシビリティに不可欠です。
重量のみの量子化はモデルのサイズを削減しますが、ビット幅が低い場合の性能劣化に苦しんでいます。
さらに、標準の微調整は量子化されたモデルと互換性があり、代替方法は完全に微調整に及ばないことがよくあります。
この論文では、ClusCompを提案します。ClusCompは、重量行列をコードブックに閉じ込め、ブロックごとにファイデットをクラスターするシンプルで効果的な圧縮パラダイムを提案します。
ClusComp(1)は2〜4ビットの量子化で優れた性能を達成し、(2)最小限の微調整で超低ビット法を上回りながら圧縮を1ビットに押し込み、(3)効率的な微調整を可能にし、既存の量子化ベースのアプローチを上回り、完全なFP16 FINETUNNINGを競います。
特に、ClusCompは、単一のA6000-48GB GPUでの70B LLMの圧縮と微調整をサポートしています。

要約(オリジナル)

As large language models (LLMs) scale, model compression is crucial for edge deployment and accessibility. Weight-only quantization reduces model size but suffers from performance degradation at lower bit widths. Moreover, standard finetuning is incompatible with quantized models, and alternative methods often fall short of full finetuning. In this paper, we propose ClusComp, a simple yet effective compression paradigm that clusters weight matrices into codebooks and finetunes them block-by-block. ClusComp (1) achieves superior performance in 2-4 bit quantization, (2) pushes compression to 1-bit while outperforming ultra-low-bit methods with minimal finetuning, and (3) enables efficient finetuning, even surpassing existing quantization-based approaches and rivaling full FP16 finetuning. Notably, ClusComp supports compression and finetuning of 70B LLMs on a single A6000-48GB GPU.

arxiv情報

著者 Baohao Liao,Christian Herold,Seyyed Hadi Hashemi,Stefan Vasilev,Shahram Khadivi,Christof Monz
発行日 2025-03-17 11:52:16+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク