要約
トレーニング後の量子化 (PTQ) は、データのプライバシーと低い計算コストの恩恵を受けて、実際に最も効率的な圧縮方法の 1 つとして広く認識されています。
見落とされがちな振動の問題が PTQ メソッドにあると主張します。
この論文では、なぜそのような問題がPTQに不可欠なのかを説明するために、理論的な証明を探求し、提示するために率先して取り組みます。
そして、原則的かつ一般化されたフレームワークを理論的に導入することにより、この問題を解決しようとします。
特に、最初に PTQ の振動を定式化し、問題がモジュール容量の違いによって引き起こされることを証明します。
この目的のために、データ依存およびデータフリーのシナリオでモジュール容量 (ModCap) を定義します。ここでは、隣接するモジュール間の差分を使用して振動の程度を測定します。
この問題は、対応するモジュールが一緒に最適化および量子化される上位 k 差分を選択することによって解決されます。
広範な実験により、私たちの方法がパフォーマンスの低下をうまく減らし、さまざまなニューラル ネットワークと PTQ メソッドに一般化されることが実証されました。
たとえば、2/4 ビットの ResNet-50 量子化では、私たちの方法は以前の最先端の方法を 1.9% 上回っています。
小さなモデルの量子化ではより重要になります。
MobileNetV2*0.5 で BRECQ 法を 6.61% 上回っています。
要約(オリジナル)
Post-training quantization (PTQ) is widely regarded as one of the most efficient compression methods practically, benefitting from its data privacy and low computation costs. We argue that an overlooked problem of oscillation is in the PTQ methods. In this paper, we take the initiative to explore and present a theoretical proof to explain why such a problem is essential in PTQ. And then, we try to solve this problem by introducing a principled and generalized framework theoretically. In particular, we first formulate the oscillation in PTQ and prove the problem is caused by the difference in module capacity. To this end, we define the module capacity (ModCap) under data-dependent and data-free scenarios, where the differentials between adjacent modules are used to measure the degree of oscillation. The problem is then solved by selecting top-k differentials, in which the corresponding modules are jointly optimized and quantized. Extensive experiments demonstrate that our method successfully reduces the performance drop and is generalized to different neural networks and PTQ methods. For example, with 2/4 bit ResNet-50 quantization, our method surpasses the previous state-of-the-art method by 1.9%. It becomes more significant on small model quantization, e.g. surpasses BRECQ method by 6.61% on MobileNetV2*0.5.
arxiv情報
著者 | Yuexiao Ma,Huixia Li,Xiawu Zheng,Xuefeng Xiao,Rui Wang,Shilei Wen,Xin Pan,Fei Chao,Rongrong Ji |
発行日 | 2023-03-21 14:52:52+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google