DNA-TEQ: An Adaptive Exponential Quantization of Tensors for DNN Inference

要約

量子化は、アクティベーションと重み (別名テンソル) の算術精度を下げることにより、ストレージと計算の複雑さを軽減するために、ディープ ニューラル ネットワーク (DNN) で一般的に使用されます。
効率的なハードウェア アーキテクチャでは線形量子化を採用し、組み込みシステムやモバイル デバイスへの最新の DNN の展開を可能にします。
ただし、線形均一量子化では、通常、モデル精度の点で高いパフォーマンスを犠牲にすることなく、数値精度を 8 ビット未満に下げることはできません。
パフォーマンスの低下は、テンソルが一様な分布に従わないことが原因です。
この論文では、かなりの量のテンソルが指数分布に適合することを示します。
次に、数値精度と精度損失の間の最良のトレードオフを達成する適応スキームを使用して DNN テンソルを指数関数的に量子化する DNA-TEQ を提案します。
実験結果は、DNA-TEQ が以前の提案と比較してはるかに低い量子化ビット幅を提供し、DNN を再トレーニングすることなく、精度の損失が無視できる程度で、線形 INT8 ベースラインを上回る平均圧縮率 40% を実現することを示しています。
さらに、DNA-TEQ は指数関数領域でのドット積演算の実行において先導的であり、広く使用されている一連の DNN のエネルギー消費を平均して 66% 節約します。

要約(オリジナル)

Quantization is commonly used in Deep Neural Networks (DNNs) to reduce the storage and computational complexity by decreasing the arithmetical precision of activations and weights, a.k.a. tensors. Efficient hardware architectures employ linear quantization to enable the deployment of recent DNNs onto embedded systems and mobile devices. However, linear uniform quantization cannot usually reduce the numerical precision to less than 8 bits without sacrificing high performance in terms of model accuracy. The performance loss is due to the fact that tensors do not follow uniform distributions. In this paper, we show that a significant amount of tensors fit into an exponential distribution. Then, we propose DNA-TEQ to exponentially quantize DNN tensors with an adaptive scheme that achieves the best trade-off between numerical precision and accuracy loss. The experimental results show that DNA-TEQ provides a much lower quantization bit-width compared to previous proposals, resulting in an average compression ratio of 40% over the linear INT8 baseline, with negligible accuracy loss and without retraining the DNNs. Besides, DNA-TEQ leads the way in performing dot-product operations in the exponential domain, which saves 66% of energy consumption on average for a set of widely used DNNs.

arxiv情報

著者 Bahareh Khabbazan,Marc Riera,Antonio González
発行日 2023-11-22 15:39:14+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AR, cs.LG パーマリンク