Ultra-low Precision Multiplication-free Training for Deep Neural Networks

要約

ディープ ニューラル ネットワーク (DNN) のトレーニングには莫大なエネルギー消費が必要であり、これがディープ ラーニングの開発を制限するだけでなく、二酸化炭素排出量を増加させます。
したがって、DNN のエネルギー効率の高いトレーニングの研究は不可欠です。
トレーニングでは、乗累算 (MAC) でエネルギーを消費する完全精度 (FP32) 乗算が頻繁に使用されるため、線形層が最も多くのエネルギーを消費します。
エネルギー効率の高い作業では、乗算の精度を下げるか、乗算を加算やビットごとのシフトなどのエネルギー効率の高い操作に置き換えて、FP32 乗算のエネルギー消費を削減しようとします。
ただし、既存のエネルギー効率の高い作業では、順方向および逆方向の伝搬中のすべての FP32 乗算を低精度のエネルギー効率の高い操作に置き換えることはできません。
この作業では、すべての FP32 乗算を INT4 加算と 1 ビット XOR 演算に置き換えるために、Adaptive Layer-wise Scaling PoT Quantization (ALS-POTQ) メソッドと Multiplication-Free MAC (MF-MAC) を提案します。
さらに、安定したトレーニングと精度の向上のために、重みバイアス補正とパラメーター化された比率クリッピング手法を提案します。
私たちのトレーニング スキームでは、上記のすべての方法で余分な乗算が発生しないため、トレーニング中の線形層でのエネルギー消費を最大 95.8% 削減できます。
実験的に、ImageNet の CNN モデルと WMT En-De タスクの Transformer モデルで 1% 未満の精度低下を達成しています。
要約すると、エネルギー効率と精度の両方で、既存の方法よりも大幅に優れています。

要約(オリジナル)

The training for deep neural networks (DNNs) demands immense energy consumption, which restricts the development of deep learning as well as increases carbon emissions. Thus, the study of energy-efficient training for DNNs is essential. In training, the linear layers consume the most energy because of the intense use of energy-consuming full-precision (FP32) multiplication in multiply-accumulate (MAC). The energy-efficient works try to decrease the precision of multiplication or replace the multiplication with energy-efficient operations such as addition or bitwise shift, to reduce the energy consumption of FP32 multiplications. However, the existing energy-efficient works cannot replace all of the FP32 multiplications during both forward and backward propagation with low-precision energy-efficient operations. In this work, we propose an Adaptive Layer-wise Scaling PoT Quantization (ALS-POTQ) method and a Multiplication-Free MAC (MF-MAC) to replace all of the FP32 multiplications with the INT4 additions and 1-bit XOR operations. In addition, we propose Weight Bias Correction and Parameterized Ratio Clipping techniques for stable training and improving accuracy. In our training scheme, all of the above methods do not introduce extra multiplications, so we reduce up to 95.8% of the energy consumption in linear layers during training. Experimentally, we achieve an accuracy degradation of less than 1% for CNN models on ImageNet and Transformer model on the WMT En-De task. In summary, we significantly outperform the existing methods for both energy efficiency and accuracy.

arxiv情報

著者 Chang Liu,Rui Zhang,Xishan Zhang,Yifan Hao,Zidong Du,Xing Hu,Ling Li,Qi Guo
発行日 2023-02-28 10:05:45+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG パーマリンク