COMQ: A Backpropagation-Free Algorithm for Post-Training Quantization

要約

ポストトレーニング量子化 (PTQ) は、大規模なニューラル ネットワークを圧縮し、展開の効率を高めるための実用的なアプローチとして登場しました。
ただし、元の精度を損なうことなく、これらのモデルを低ビットのモデルに効果的に縮小することが依然として重要な課題です。
この論文では、COMQ と呼ばれる革新的な PTQ アルゴリズムを提案します。このアルゴリズムは、層ごとの再構成誤差の座標ごとの最小化を逐次実行します。
広く使用されている整数量子化について考えます。この場合、すべての量子化された重みは共有浮動小数点スカラーと整数ビットコードに分解できます。
固定層内では、COMQ はすべてのスケーリング係数とビットコードを再構成エラーの変数として扱います。
反復するたびに、他のすべての変数を一定に保ちながら、単一の座標に沿ったこの誤差が改善されます。
COMQ は使いやすく、ハイパーパラメータの調整は必要ありません。
代わりに、ドット積と丸め演算のみが含まれます。
これらの変数は慎重に設計された貪欲な順序で更新され、精度が大幅に向上します。
COMQ は、4 ビット ビジョン トランスフォーマーの量子化において、トップ 1 精度の損失が 1% 未満という無視できるほどの顕著な結果を達成しました。
畳み込みニューラル ネットワークの 4 ビット INT 量子化では、COMQ は、トップ 1 精度のわずか 0.3% の最小限の低下でほぼロスレスの精度を維持します。

要約(オリジナル)

Post-training quantization (PTQ) has emerged as a practical approach to compress large neural networks, making them highly efficient for deployment. However, effectively reducing these models to their low-bit counterparts without compromising the original accuracy remains a key challenge. In this paper, we propose an innovative PTQ algorithm termed COMQ, which sequentially conducts coordinate-wise minimization of the layer-wise reconstruction errors. We consider the widely used integer quantization, where every quantized weight can be decomposed into a shared floating-point scalar and an integer bit-code. Within a fixed layer, COMQ treats all the scaling factor(s) and bit-codes as the variables of the reconstruction error. Every iteration improves this error along a single coordinate while keeping all other variables constant. COMQ is easy to use and requires no hyper-parameter tuning. It instead involves only dot products and rounding operations. We update these variables in a carefully designed greedy order, significantly enhancing the accuracy. COMQ achieves remarkable results in quantizing 4-bit Vision Transformers, with a negligible loss of less than 1% in Top-1 accuracy. In 4-bit INT quantization of convolutional neural networks, COMQ maintains near-lossless accuracy with a minimal drop of merely 0.3% in Top-1 accuracy.

arxiv情報

著者 Aozhong Zhang,Zi Yang,Naigang Wang,Yingyong Qin,Jack Xin,Xin Li,Penghang Yin
発行日 2024-06-04 16:57:16+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG パーマリンク