要約
2 のべき乗 (PoT) 量子化などの不均一な量子化は、均一な量子化よりもデータ分布とよく一致するため、ディープ ニューラル ネットワーク (DNN) の量子化誤差が減少します。
PoT 量子化では、乗算の代わりにビット シフト演算を使用することもできますが、PoT 量子化におけるシフトベースのアクセラレータの効率に関する研究は限られています。
さらに、エッジ デバイス上で PoT 量子化 DNN を高速化するための既存のパイプラインはオープンソースではありません。
この論文では、まずさまざまな PoT 量子化方法に対応するシフトベースの処理要素 (shift-PE) を設計し、合成ベンチマークを使用してその効率を評価します。
次に、最も効率的なシフト PE を使用してシフトベースのアクセラレータを設計し、リソースに制約のあるエッジ デバイス上で PoT 量子化 DNN をエンドツーエンドで高速化するためのオープンソース パイプラインである PoTAcc を提案します。
PoTAcc を使用して、3 つの DNN にわたるシフトベースのアクセラレータのパフォーマンスを評価します。
平均して、乗算器ベースのアクセラレータと比較して 1.23 倍の高速化と 1.24 倍のエネルギー削減を実現し、CPU のみの実行と比較して 2.46 倍の高速化と 1.83 倍のエネルギー削減を実現します。
私たちのコードは https://github.com/gicLAB/PoTAcc で入手できます。
要約(オリジナル)
Non-uniform quantization, such as power-of-two (PoT) quantization, matches data distributions better than uniform quantization, which reduces the quantization error of Deep Neural Networks (DNNs). PoT quantization also allows bit-shift operations to replace multiplications, but there are limited studies on the efficiency of shift-based accelerators for PoT quantization. Furthermore, existing pipelines for accelerating PoT-quantized DNNs on edge devices are not open-source. In this paper, we first design shift-based processing elements (shift-PE) for different PoT quantization methods and evaluate their efficiency using synthetic benchmarks. Then we design a shift-based accelerator using our most efficient shift-PE and propose PoTAcc, an open-source pipeline for end-to-end acceleration of PoT-quantized DNNs on resource-constrained edge devices. Using PoTAcc, we evaluate the performance of our shift-based accelerator across three DNNs. On average, it achieves a 1.23x speedup and 1.24x energy reduction compared to a multiplier-based accelerator, and a 2.46x speedup and 1.83x energy reduction compared to CPU-only execution. Our code is available at https://github.com/gicLAB/PoTAcc
arxiv情報
| 著者 | Rappy Saha,Jude Haris,José Cano | 
| 発行日 | 2024-09-30 15:33:47+00:00 | 
| arxivサイト | arxiv_id(pdf) | 
提供元, 利用サービス
arxiv.jp, Google
