QBitOpt: Fast and Accurate Bitwidth Reallocation during Training

要約

ニューラル ネットワークの量子化は、モバイル デバイスや組み込みデバイスで効率的な推論を実現するための最も効果的な方法の 1 つです。
特に、層を異なるビット幅に量子化できる混合精度量子化 (MPQ) ネットワークは、同種のビット幅を持つネットワークと比較して、同じリソース制約に対してより優れたタスク パフォーマンスを実現します。
ただし、ネットワーク内のレイヤー数に応じて検索スペースが指数関数的に増大するため、最適なビット幅割り当てを見つけることは困難な問題です。
この論文では、量子化対応トレーニング (QAT) 中にビット幅を更新するための新しいアルゴリズムである QBitOpt を提案します。
ビット幅割り当て問題を制約最適化問題として定式化します。
QAT 中に高速計算感度と効率的なソルバーを組み合わせることで、QBitOpt は、厳しいリソース制約を満たすことが保証された高いタスク パフォーマンスを備えた混合精度ネットワークを生成できます。
これは、勾配を使用してビット幅を学習するため、そのような保証を提供できない既存の混合精度手法とは対照的です。
ImageNet で QBitOpt を評価し、文献で一般的に見られる平均ビット幅制約の下で、既存の固定精度および混合精度の手法よりも優れたパフォーマンスを発揮することを確認しました。

要約(オリジナル)

Quantizing neural networks is one of the most effective methods for achieving efficient inference on mobile and embedded devices. In particular, mixed precision quantized (MPQ) networks, whose layers can be quantized to different bitwidths, achieve better task performance for the same resource constraint compared to networks with homogeneous bitwidths. However, finding the optimal bitwidth allocation is a challenging problem as the search space grows exponentially with the number of layers in the network. In this paper, we propose QBitOpt, a novel algorithm for updating bitwidths during quantization-aware training (QAT). We formulate the bitwidth allocation problem as a constraint optimization problem. By combining fast-to-compute sensitivities with efficient solvers during QAT, QBitOpt can produce mixed-precision networks with high task performance guaranteed to satisfy strict resource constraints. This contrasts with existing mixed-precision methods that learn bitwidths using gradients and cannot provide such guarantees. We evaluate QBitOpt on ImageNet and confirm that we outperform existing fixed and mixed-precision methods under average bitwidth constraints commonly found in the literature.

arxiv情報

著者 Jorn Peters,Marios Fournarakis,Markus Nagel,Mart van Baalen,Tijmen Blankevoort
発行日 2023-07-10 13:01:08+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG パーマリンク