SDQ: Stochastic Differentiable Quantization with Mixed Precision

要約

深層モデルを計算効率よく展開するために、モデル量子化のアプローチが頻繁に利用されています。また、混合ビット幅の演算をサポートする新しいハードウェアとして、最近の混合精度量子化(MPQ)の研究は、ネットワーク内の異なる層やモジュールに対して最適化されたビット幅を探索することにより、表現能力を十分に活用することを始めています。しかし、これまでの研究では、強化学習やニューラル・アーキテクチャ探索などを用いてコストの高い方式でMPQ戦略を探索したり、ビット幅の割り当てに部分的な事前知識を単に利用したりしており、偏った最適でない可能性がある。本研究では、より柔軟で大域的に最適化された空間において、より滑らかな勾配近似によりMPQ戦略を自動学習できる新しい確率微分量子化法(SDQ)を発表する。特に、隣接するビット幅の選択肢間の確率的量子化において、微分可能ビット幅パラメータ(DBP)を確率的因子として採用する。最適なMPQ戦略を獲得した後、エントロピーを考慮したビン正則化と知識蒸留を用いて、さらにネットワークを学習させる。我々は、異なるハードウェア(GPUとFPGA)とデータセットで、いくつかのネットワークに対して本手法を広範に評価した。SDQはビット幅が小さい最新の混合精度または単精度量子化よりも優れており、様々なResNetおよびMobileNetファミリーにおいて全精度の対応するものよりもさらに優れており、本手法の有効性と優位性を実証している。

要約(オリジナル)

In order to deploy deep models in a computationally efficient manner, model quantization approaches have been frequently used. In addition, as new hardware that supports mixed bitwidth arithmetic operations, recent research on mixed precision quantization (MPQ) begins to fully leverage the capacity of representation by searching optimized bitwidths for different layers and modules in a network. However, previous studies mainly search the MPQ strategy in a costly scheme using reinforcement learning, neural architecture search, etc., or simply utilize partial prior knowledge for bitwidth assignment, which might be biased and sub-optimal. In this work, we present a novel Stochastic Differentiable Quantization (SDQ) method that can automatically learn the MPQ strategy in a more flexible and globally-optimized space with smoother gradient approximation. Particularly, Differentiable Bitwidth Parameters (DBPs) are employed as the probability factors in stochastic quantization between adjacent bitwidth choices. After the optimal MPQ strategy is acquired, we further train our network with entropy-aware bin regularization and knowledge distillation. We extensively evaluate our method for several networks on different hardware (GPUs and FPGA) and datasets. SDQ outperforms all state-of-the-art mixed or single precision quantization with a lower bitwidth and is even better than the full-precision counterparts across various ResNet and MobileNet families, demonstrating the effectiveness and superiority of our method.

arxiv情報

著者 Xijie Huang,Zhiqiang Shen,Shichao Li,Zechun Liu,Xianghong Hu,Jeffry Wicaksana,Eric Xing,Kwang-Ting Cheng
発行日 2022-06-09 12:38:18+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.CV, cs.LG パーマリンク