要約
ディープ ニューラル ネットワーク (DNN) は、画像分類、オブジェクト検出、シーン セグメンテーションなどの認知タスクに強力です。
ただし、1 つの欠点は、計算の複雑さとメモリ消費量が非常に高く、ハードウェア リソースが限られているため、組み込みプラットフォーム上でリアルタイムで実行することが不可能になることです。
ブロック浮動小数点 (BFP) 量子化は、DNN モデルの広範なデータ分布を効果的にキャプチャできるため、メモリと計算の負担を軽減するための代表的な圧縮アプローチの 1 つです。
残念ながら、BFP ベースの量子化に関するこれまでの研究では、精度を維持するブロック サイズと精度が経験的に選択されていました。
この論文では、組み込みプラットフォーム上で DNN 推論を最適に BFP 実装するための、BFP ベースのビット幅を意識した分析モデリング フレームワーク (「BitQ」と呼ばれます) を開発します。
最適化問題を定式化して解決し、精度とパフォーマンス損失の両方のトレードオフによって最適な BFP ブロック サイズとビット幅分布を特定します。
実験結果は、等しいビット幅設定と比較して、ビット幅割り当てが最適化された BFP DNN は効率的な計算を提供し、有名なベンチマークでの精度を維持することを示しています。
ソース コードとデータは https://github.com/Cheliosoops/BitQ で入手できます。
要約(オリジナル)
Deep neural networks (DNNs) are powerful for cognitive tasks such as image classification, object detection, and scene segmentation. One drawback however is the significant high computational complexity and memory consumption, which makes them unfeasible to run real-time on embedded platforms because of the limited hardware resources. Block floating point (BFP) quantization is one of the representative compression approaches for reducing the memory and computational burden owing to their capability to effectively capture the broad data distribution of DNN models. Unfortunately, prior works on BFP-based quantization empirically choose the block size and the precision that preserve accuracy. In this paper, we develop a BFP-based bitwidth-aware analytical modeling framework (called “BitQ”) for the best BFP implementation of DNN inference on embedded platforms. We formulate and resolve an optimization problem to identify the optimal BFP block size and bitwidth distribution by the trade-off of both accuracy and performance loss. Experimental results show that compared with an equal bitwidth setting, the BFP DNNs with optimized bitwidth allocation provide efficient computation, preserving accuracy on famous benchmarks. The source code and data are available at https://github.com/Cheliosoops/BitQ.
arxiv情報
著者 | Yongqi Xu,Yujian Lee,Gao Yi,Bosheng Liu,Yucong Chen,Peng Liu,Jigang Wu,Xiaoming Chen,Yinhe Han |
発行日 | 2024-09-25 17:03:49+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google