Adaptive quantization with mixed-precision based on low-cost proxy

要約

リソースが限られているハードウェアに複雑なニューラル ネットワーク モデルを展開することが重要です。
この論文では、低コスト プロキシベースの適応混合精度モデル量子化 (LCPAQ) と呼ばれる新しいモデル量子化方法を提案します。これには 3 つの主要なモジュールが含まれています。
ハードウェア認識モジュールはハードウェアの制限を考慮して設計されており、適応型混合精度量子化モジュールはヘッセ行列とパレート フロンティア手法を使用して量子化感度を評価するために開発されています。
整数線形計画法は、さまざまなレイヤーにわたる量子化を微調整するために使用されます。
次に、低コストのプロキシ ニューラル アーキテクチャ検索モジュールが、理想的な量子化ハイパーパラメータを効率的に探索します。
ImageNet での実験では、提案された LCPAQ が既存の混合精度モデルと同等以上の量子化精度を達成することが実証されています。
特に、LCPAQ は既存の方法と比較して検索時間を 1/200 に短縮し、リソースが限られたデバイスで実際に量子化を使用する際の近道を提供します。

要約(オリジナル)

It is critical to deploy complicated neural network models on hardware with limited resources. This paper proposes a novel model quantization method, named the Low-Cost Proxy-Based Adaptive Mixed-Precision Model Quantization (LCPAQ), which contains three key modules. The hardware-aware module is designed by considering the hardware limitations, while an adaptive mixed-precision quantization module is developed to evaluate the quantization sensitivity by using the Hessian matrix and Pareto frontier techniques. Integer linear programming is used to fine-tune the quantization across different layers. Then the low-cost proxy neural architecture search module efficiently explores the ideal quantization hyperparameters. Experiments on the ImageNet demonstrate that the proposed LCPAQ achieves comparable or superior quantization accuracy to existing mixed-precision models. Notably, LCPAQ achieves 1/200 of the search time compared with existing methods, which provides a shortcut in practical quantization use for resource-limited devices.

arxiv情報

著者 Junzhe Chen,Qiao Yang,Senmao Tian,Shunli Zhang
発行日 2024-02-27 17:36:01+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク