Matryoshka Quantization

要約

モデルの重みの量子化は、大規模なモデルの通信コストと推論コストを削減するために重要です。
ただし、モデルの量子化 – 特にINT4やINT2などの低精度では、モデルの品質のトレードオフが必要です。
特に、INT2はモデルの品質をひどく低下させることが知られています。
その結果、実務家は、量子化レベルが異なる複数のモデルを維持することを余儀なくされるか、品質遅延のトレードオフを最もよく満たす単一のモデルを提供することを余儀なくされます。
一方、INT8などの整数データ型は、INT4やINT2などのより小さなビット幅の整数が最も重要なビット内にネストされるネストされた(マトリオシュカ)構造を本質的に持っています。
この洞察を活用して、この論文では、前述の課題を緩和する新しいマルチスケール量子化技術であるMatryoshka量子化(\ alg)を提案します。
この手法により、単一の量子化されたモデルをトレーニングおよび維持することができますが、展開によって要求される精度を備えています。
さらに、\ algの共訓練と共蒸留の正則化を活用し、\ algによって抽出されたInt2精度モデルは、標準のINT2量子化を最大4 \%および7 \%で、それぞれ基本アルゴリズムとして最大4 \%および7 \%でアウトパフォーマンスします。
最後に、アウトレアを表すために余分なビットを使用することにより、2.05ビットの効果的な精度を持つモデルが、ベースアルゴリズムとしてoMniquantで追加の6 \%改善を与えることを実証します。

要約(オリジナル)

Quantizing model weights is critical for reducing the communication and inference costs of large models. However, quantizing models — especially to low precisions like int4 or int2 — requires a trade-off in model quality; int2, in particular, is known to severely degrade model quality. Consequently, practitioners are often forced to maintain multiple models with different quantization levels or serve a single model that best satisfies the quality-latency trade-off. On the other hand, integer data types, such as int8, inherently possess a nested (Matryoshka) structure where smaller bit-width integers, like int4 or int2, are nested within the most significant bits. Leveraging this insight, in this paper, we propose Matryoshka Quantization (\alg), a novel multi-scale quantization technique that alleviates the aforementioned challenge. This technique allows us to train and maintain a single quantized model but serve it with the precision demanded by the deployment. Furthermore, leveraging \alg’s co-training and co-distillation regularization, int2 precision models extracted by \alg outperform standard int2 quantization by up to to 4\% and 7\% with OmniQuant and QAT as base algorithms respectively. Finally, we demonstrate that by using an extra bit to represent outliers, a model with an effective precision of 2.05-bit gives an additional 6\% improvement with OmniQuant as the base algorithm.

arxiv情報

著者 Pranav Nair,Puranjay Datta,Jeff Dean,Prateek Jain,Aditya Kusupati
発行日 2025-02-24 16:34:21+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG パーマリンク