OHQ: On-chip Hardware-aware Quantization

要約

量子化は、リソースに制約のあるハードウェアに高度なディープ モデルを展開するための最も有望なアプローチの 1 つとして浮上しています。
混合精度の量子化では、複数のビット幅のアーキテクチャを活用して、量子化モデルの精度と効率の可能性を解き放ちます。
ただし、既存の混合精度量子化では検索スペースが枯渇し、膨大な計算オーバーヘッドが発生します。
したがって、量子化プロセスはローカルではなく個別の高性能デバイスに依存するため、考慮されたハードウェア メトリクスと実際の展開との間に大きなギャップが生じます。
この論文では、オンライン デバイスにアクセスせずにハードウェアを認識した混合精度量子化を実行するオンチップ ハードウェア認識量子化 (OHQ) フレームワークを提案します。
まず、オンチップ量子化認識 (OQA) パイプラインを構築し、ハードウェア上の量子化オペレーターの実際の効率メトリクスを認識できるようにします。
第二に、オンチップレベルの計算能力の制約下で演算子の精度メトリックを効率的に推定するマスクガイド付き量子化推定 (MQE) 手法を提案します。
線形計画法を通じてネットワークとハードウェアの洞察を統合することにより、最適化されたビット幅構成が得られます。
特に、量子化プロセスは追加のコンピューティング デバイスやデータ アクセスを必要とせずに完全にオンチップで行われます。
さまざまなアーキテクチャと圧縮率での量子化後の推論の高速化を実証し、ResNet-18 と MobileNetV3 でそれぞれ 70% と 73% の精度を達成しました。
OHQ は、展開時に INT8 と比較してレイテンシーを 15 ~ 30% 改善します。

要約(オリジナル)

Quantization emerges as one of the most promising approaches for deploying advanced deep models on resource-constrained hardware. Mixed-precision quantization leverages multiple bit-width architectures to unleash the accuracy and efficiency potential of quantized models. However, existing mixed-precision quantization suffers exhaustive search space that causes immense computational overhead. The quantization process thus relies on separate high-performance devices rather than locally, which also leads to a significant gap between the considered hardware metrics and the real deployment. In this paper, we propose an On-chip Hardware-aware Quantization (OHQ) framework that performs hardware-aware mixed-precision quantization without accessing online devices. First, we construct the On-chip Quantization Awareness (OQA) pipeline, enabling perceive the actual efficiency metrics of the quantization operator on the hardware. Second, we propose Mask-guided Quantization Estimation (MQE) technique to efficiently estimate the accuracy metrics of operators under the constraints of on-chip-level computing power. By synthesizing network and hardware insights through linear programming, we obtain optimized bit-width configurations. Notably, the quantization process occurs on-chip entirely without any additional computing devices and data access. We demonstrate accelerated inference after quantization for various architectures and compression ratios, achieving 70% and 73% accuracy for ResNet-18 and MobileNetV3, respectively. OHQ improves latency by 15~30% compared to INT8 on deployment.

arxiv情報

著者 Wei Huang,Haotong Qin,Yangdong Liu,Jingzhuo Liang,Yulun Zhang,Ying Li,Xianglong Liu
発行日 2024-02-07 06:52:29+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.AR, cs.LG パーマリンク