要約
トレーニング後の量子化 (PTQ) は、量子化されたニューラル ネットワークを展開する際の利便性から、ますます注目を集めています。
量子化誤差の主な原因である丸めは、モデルの重みに対してのみ最適化されますが、活性化では最も近い値への丸め操作が引き続き使用されます。
この作業では、活性化のために適切に選択された丸めスキームが最終的な精度を向上させることができることを初めて示しました。
アクティベーション丸めスキームの動的性の課題に対処するために、単純な関数を使用して丸め境界を適応的に調整し、推論段階で丸めスキームを生成します。
境界関数は、重みエラー、アクティベーション エラー、伝播エラーの影響をカバーして、要素ごとのエラーの偏りを排除し、モデルの精度をさらに向上させます。
また、さまざまな到着アクティベーションにより適合するように、グローバル エラーを国境に認識させます。
最後に、境界関数を学習するための AQuant フレームワークを提案します。
広範な実験により、AQuant は最先端の作品と比較してごくわずかなオーバーヘッドで顕著な改善を達成し、ResNet-18 の精度を 2 ビットの重みとアクティベーション後のトレーニング量子化で 60.3\% まで押し上げることが示されています。
要約(オリジナル)
Post-training quantization (PTQ) attracts increasing attention due to its convenience in deploying quantized neural networks. Rounding, the primary source of quantization error, is optimized only for model weights, while activations still use the rounding-to-nearest operation. In this work, for the first time, we demonstrate that well-chosen rounding schemes for activations can improve the final accuracy. To deal with the challenge of the dynamicity of the activation rounding scheme, we adaptively adjust the rounding border through a simple function to generate rounding schemes at the inference stage. The border function covers the impact of weight errors, activation errors, and propagated errors to eliminate the bias of the element-wise error, which further benefits model accuracy. We also make the border aware of global errors to better fit different arriving activations. Finally, we propose the AQuant framework to learn the border function. Extensive experiments show that AQuant achieves noticeable improvements with negligible overhead compared with state-of-the-art works and pushes the accuracy of ResNet-18 up to 60.3\% under the 2-bit weight and activation post-training quantization.
arxiv情報
著者 | Zhengyi Li,Cong Guo,Zhanda Zhu,Yangjie Zhou,Yuxian Qiu,Xiaotian Gao,Jingwen Leng,Minyi Guo |
発行日 | 2022-08-25 09:02:32+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google