CSMPQ:Class Separability Based Mixed-Precision Quantization

要約

混合精度の量子化は、計算負荷を軽減し、推論時間を高速化する機能により、ますます注目を集めています。
既存の方法は通常、さまざまなネットワーク層の感度に焦点を当てているため、時間のかかる検索またはトレーニング プロセスが必要です。
この目的のために、CSMPQ と呼ばれる新しい混合精度量子化法が提案されています。
具体的には、自然言語処理 (NLP) で広く使用されている TF-IDF メトリックを導入して、レイヤーごとの特徴マップのクラス分離可能性を測定します。
さらに、線形計画問題を設計して、各層の最適なビット構成を導き出します。
反復プロセスなしで、提案された CSMPQ は、最先端の量子化方法よりも優れた圧縮トレードオフを実現します。
具体的には、CSMPQ は ResNet-18 で 73.03$\%$ のトップ 1 acc を QAT の 59G BOP のみで達成し、71.30$\%$ のトップ 1 acc を PTQ で MobileNetV2 でわずか 1.5Mb で達成します。

要約(オリジナル)

Mixed-precision quantization has received increasing attention for its capability of reducing the computational burden and speeding up the inference time. Existing methods usually focus on the sensitivity of different network layers, which requires a time-consuming search or training process. To this end, a novel mixed-precision quantization method, termed CSMPQ, is proposed. Specifically, the TF-IDF metric that is widely used in natural language processing (NLP) is introduced to measure the class separability of layer-wise feature maps. Furthermore, a linear programming problem is designed to derive the optimal bit configuration for each layer. Without any iterative process, the proposed CSMPQ achieves better compression trade-offs than the state-of-the-art quantization methods. Specifically, CSMPQ achieves 73.03$\%$ Top-1 acc on ResNet-18 with only 59G BOPs for QAT, and 71.30$\%$ top-1 acc with only 1.5Mb on MobileNetV2 for PTQ.

arxiv情報

著者 Mingkai Wang,Taisong Jin,Miaohui Zhang,Zhengtao Yu
発行日 2022-12-20 12:52:19+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク