SSVQ: Unleashing the Potential of Vector Quantization with Sign-Splitting

要約

ベクター量子化(VQ)は、特に極端な圧縮シナリオでは、多様なモデル全体で均一な量子化よりも大幅に低い量子化誤差を示す顕著な重量圧縮技術として浮上しています。
ただし、微調整中のその有効性は、同じコードワードに割り当てられた重量ベクターが同じ方向の更新に制限されている圧縮形式の制約によって制限されます。
その結果、多くの量子化された重みは、局所勾配情報に反して方向に移動することを余儀なくされています。
この問題を軽減するために、コードブックの重みのサインビットを切り離す新しいVQパラダイム、サインスプリッティングVQ(SSVQ)を紹介します。
私たちのアプローチでは、非圧縮重量の標識ビットを抽出し、全陽性のウェイトでクラスタリングと圧縮を実行することが含まれます。
次に、サインビットの潜在変数を導入し、サインとコードブックの両方を共同で最適化します。
さらに、トレーニングの安定性を確保するために、学習可能なサインのためのプログレッシブフリーズ戦略を実装します。
さまざまな最新のモデルとタスクに関する広範な実験は、SSVQが従来のVQと比較して非常に優れた圧縮acccuuracyトレードオフを達成することを示しています。
さらに、ハードウェアアクセラレータでアルゴリズムを検証し、SSVQがメモリアクセスを削減することにより8ビット圧縮モデルで3 $ \ Times $速度を達成することを示します。

要約(オリジナル)

Vector Quantization (VQ) has emerged as a prominent weight compression technique, showcasing substantially lower quantization errors than uniform quantization across diverse models, particularly in extreme compression scenarios. However, its efficacy during fine-tuning is limited by the constraint of the compression format, where weight vectors assigned to the same codeword are restricted to updates in the same direction. Consequently, many quantized weights are compelled to move in directions contrary to their local gradient information. To mitigate this issue, we introduce a novel VQ paradigm, Sign-Splitting VQ (SSVQ), which decouples the sign bit of weights from the codebook. Our approach involves extracting the sign bits of uncompressed weights and performing clustering and compression on all-positive weights. We then introduce latent variables for the sign bit and jointly optimize both the signs and the codebook. Additionally, we implement a progressive freezing strategy for the learnable sign to ensure training stability. Extensive experiments on various modern models and tasks demonstrate that SSVQ achieves a significantly superior compression-accuracy trade-off compared to conventional VQ. Furthermore, we validate our algorithm on a hardware accelerator, showing that SSVQ achieves a 3$\times$ speedup over the 8-bit compressed model by reducing memory access.

arxiv情報

著者 Shuaiting Li,Juncan Deng,Chenxuan Wang,Kedong Xu,Rongtao Deng,Hong Gu,Haibin Shen,Kejie Huang
発行日 2025-03-11 17:52:48+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク