Efficient Adaptive Activation Rounding for Post-Training Quantization

要約

量子化されたニューラルネットワークの利便性から、ポストトレーニング量子化(PTQ)が注目されています。量子化誤差の主な原因は丸めであり、これまでの研究では、境界を0.5とした丸め方式が採用されています。本研究では、丸め方式を最適化することで、モデルの精度を向上させることができることを実証しています。定数境界を単純な境界関数に置き換えることで、2つの数値を掛け合わせる際の最小誤差を求め、その期待値の偏りをなくすことができ、さらにモデルの精度を向上させることができる。この洞察に基づき、我々は境界関数を近似し、発生するオーバーヘッドを無視できるようにする。また、伝搬誤差と大域誤差を共同で最適化する。最後に、境界関数を自動的に学習するAQuantフレームワークを提案する。広範な実験により、AQuantは最先端の研究と比較して顕著な改善を達成し、2ビット重みと活性化後学習量子化の下でResNet-18の精度を最大60.31%まで押し上げることが示される。

要約(オリジナル)

Post-training quantization (PTQ) attracts increasing attention due to its convenience in deploying quantized neural networks. Rounding is the primary source of quantization error, for which previous works adopt the rounding-to-nearest scheme with a constant border of 0.5. This work demonstrates that optimizing rounding schemes can improve model accuracy. By replacing the constant border with a simple border function, we can obtain the minimal error for multiplying two numbers and eliminate the bias of its expected value, which further benefits model accuracy. Based on this insight, we approximate the border function to make the incurred overhead negligible. We also jointly optimize propagated errors and global errors. We finally propose our AQuant framework, which can learn the border function automatically. Extensive experiments show that AQuant achieves noticeable improvements compared with state-of-the-art works and pushes the accuracy of ResNet-18 up to 60.31% under the 2-bit weight and activation post-training quantization.

arxiv情報

著者 Zhengyi Li,Cong Guo,Zhanda Zhu,Yangjie Zhou,Yuxian Qiu,Xiaotian Gao,Jingwen Leng,Minyi Guo
発行日 2023-02-06 14:36:58+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV, cs.LG パーマリンク