Gradient-based Automatic Per-Weight Mixed Precision Quantization for Neural Networks On-Chip

要約

多くの深層学習アプリケーションでは、モデルのサイズと展開時の推論速度が大きな課題となります。
これらの課題を克服する有望な戦略は量子化です。
ただし、非常に低い精度に単純に均一に量子化すると、精度が大幅に低下する可能性があります。
混合精度量子化は、ネットワークの特定の部分が他の部分と比較してパフォーマンスを損なうことなく低い精度に対応できるという考えに基づいており、潜在的な解決策を提供します。
この研究では、高粒度量子化 (HGQ) を紹介します。これは、超低レイテンシおよび低電力ニューラル ネットワーク向けに、重みごとおよびアクティベーションごとの精度を自動的に微調整するように設計された革新的な量子化対応トレーニング方法です。
FPGA 上に展開されます。
HGQ が既存の手法を大幅に上回り、精度を維持しながら最大 20 分のリソース削減と 5 分のレイテンシ改善を達成できることを実証します。

要約(オリジナル)

Model size and inference speed at deployment time, are major challenges in many deep learning applications. A promising strategy to overcome these challenges is quantization. However, a straightforward uniform quantization to very low precision can result in significant accuracy loss. Mixed-precision quantization, based on the idea that certain parts of the network can accommodate lower precision without compromising performance compared to other parts, offers a potential solution. In this work, we present High Granularity Quantization (HGQ), an innovative quantization-aware training method designed to fine-tune the per-weight and per-activation precision in an automatic way for ultra-low latency and low power neural networks which are to be deployed on FPGAs. We demonstrate that HGQ can outperform existing methods by a substantial margin, achieving resource reduction by up to a factor of 20 and latency improvement by a factor of 5 while preserving accuracy.

arxiv情報

著者 Chang Sun,Thea K. Årrestad,Vladimir Loncar,Jennifer Ngadiuba,Maria Spiropulu
発行日 2024-05-01 17:18:46+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, physics.ins-det パーマリンク