CRVQ: Channel-relaxed Vector Quantization for Extreme Compression of LLMs

要約

強力な大規模言語モデル (LLM) は、より低い計算コストで導入され、リソースに制約のあるデバイスでもその機能を有効にすることがますます期待されています。
ポストトレーニング量子化 (PTQ) は、この目標を達成するための主要なアプローチとして浮上しており、最良の方法では重みを平均 2 ビット未満に圧縮します。
この論文では、最小限の追加ビットのみを犠牲にして PTQ ベースラインのパフォーマンスを大幅に向上させる新しい技術であるチャネル緩和ベクトル量子化 (CRVQ) を提案します。
この最先端の極端な圧縮方法は、2 つの主要な革新によって結果を達成します。(1) クリティカル ウェイト チャネルの非常に小さなサブセットを慎重に選択して並べ替えること、(2) 複数のコードブックを活用してクリティカル チャネルの制約を緩和することです。
私たちの方法では、現在最も強力なサブ 2 ビット PTQ ベースラインと比較して 38.9% の改善が実証され、よりロスレスに近い 1 ビット圧縮が可能になります。
さらに、私たちのアプローチは量子化ビット幅とパフォーマンスの柔軟なカスタマイズを提供し、多様なハードウェア プラットフォームに幅広い展開オプションを提供します。

要約(オリジナル)

Powerful large language models (LLMs) are increasingly expected to be deployed with lower computational costs, enabling their capabilities on resource-constrained devices. Post-training quantization (PTQ) has emerged as a star approach to achieve this ambition, with best methods compressing weights to less than 2 bit on average. In this paper, we propose Channel-Relaxed Vector Quantization (CRVQ), a novel technique that significantly improves the performance of PTQ baselines at the cost of only minimal additional bits. This state-of-the-art extreme compression method achieves its results through two key innovations: (1) carefully selecting and reordering a very small subset of critical weight channels, and (2) leveraging multiple codebooks to relax the constraint of critical channels. With our method, we demonstrate a 38.9% improvement over the current strongest sub-2-bit PTQ baseline, enabling nearer lossless 1-bit compression. Furthermore, our approach offers flexible customization of quantization bit-width and performance, providing a wider range of deployment options for diverse hardware platforms.

arxiv情報

著者 Yuzhuang Xu,Shiyu Ji,Qingfu Zhu,Wanxiang Che
発行日 2024-12-12 13:45:11+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG パーマリンク