Estimator Meets Equilibrium Perspective: A Rectified Straight Through Estimator for Binary Neural Networks Training

要約

ニューラル ネットワークの 2 値化は、ニューラル ネットワーク圧縮における主要なパラダイムです。
先駆的な研究である BinaryConnect は、Straight Through Estimator (STE) を使用して符号関数の勾配を模倣しますが、これは重大な不一致の問題も引き起こします。
以前の方法のほとんどは、STE の代わりに異なる推定器を設計して、それを軽減します。
しかし、彼らは、推定誤差を減らすと、それに伴って勾配の安定性も低下するという事実を無視しています。
これらの発散性の高い勾配はモデルのトレーニングに悪影響を及ぼし、勾配の消失や勾配の爆発のリスクを高めます。
勾配の安定性を完全に考慮するために、推定誤差と勾配の安定性の間の均衡とみなす新しい視点を BNN トレーニングに提示します。
この観点では、まず均衡現象を定量的に示すために 2 つの指標を設計します。
さらに、推定誤差と勾配安定性のバランスをうまくとるために、オリジナルのストレートスルー推定器を修正し、べき乗関数ベースの推定器である Rectified Straight Through Estimator (略して ReSTE) を提案します。
他の推定器と比較して、ReSTE は合理的であり、推定誤差と勾配の安定性のバランスを柔軟にとることができます。
CIFAR-10 および ImageNet データセットに関する広範な実験により、ReSTE が優れたパフォーマンスを備え、補助モジュールや損失なしに最先端の手法を上回ることが示されました。

要約(オリジナル)

Binarization of neural networks is a dominant paradigm in neural networks compression. The pioneering work BinaryConnect uses Straight Through Estimator (STE) to mimic the gradients of the sign function, but it also causes the crucial inconsistency problem. Most of the previous methods design different estimators instead of STE to mitigate it. However, they ignore the fact that when reducing the estimating error, the gradient stability will decrease concomitantly. These highly divergent gradients will harm the model training and increase the risk of gradient vanishing and gradient exploding. To fully take the gradient stability into consideration, we present a new perspective to the BNNs training, regarding it as the equilibrium between the estimating error and the gradient stability. In this view, we firstly design two indicators to quantitatively demonstrate the equilibrium phenomenon. In addition, in order to balance the estimating error and the gradient stability well, we revise the original straight through estimator and propose a power function based estimator, Rectified Straight Through Estimator (ReSTE for short). Comparing to other estimators, ReSTE is rational and capable of flexibly balancing the estimating error with the gradient stability. Extensive experiments on CIFAR-10 and ImageNet datasets show that ReSTE has excellent performance and surpasses the state-of-the-art methods without any auxiliary modules or losses.

arxiv情報

著者 Xiao-Ming Wu,Dian Zheng,Zuhao Liu,Wei-Shi Zheng
発行日 2023-08-25 13:51:25+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク