Custom Gradient Estimators are Straight-Through Estimators in Disguise

要約

量子化を意識したトレーニングには基本的な課題が伴います。丸めなどの量子化関数の導関数は、ほぼどこでもゼロであり、他の場所には存在しません。
この問題に対処するために、量子化関数のさまざまな微分可能な近似が提案されています。
この論文では、学習率が十分に小さい場合、大きなクラスの重み勾配推定器がストレートスルー推定器 (STE) と同等であることを証明します。
具体的には、STE で交換し、SGD で重みの初期化と学習率の両方を調整した後、モデルは元の勾配推定器で行ったのとほぼ同じ方法でトレーニングされます。
さらに、Adam のような適応学習率アルゴリズムでは、重みの初期化と学習率を変更しなくても同じ結果が得られることを示します。
我々は、これらの結果が、MNIST データセットでトレーニングされた小さな畳み込みモデルと ImageNet でトレーニングされた ResNet50 モデルの両方に当てはまることを実験的に示します。

要約(オリジナル)

Quantization-aware training comes with a fundamental challenge: the derivative of quantization functions such as rounding are zero almost everywhere and nonexistent elsewhere. Various differentiable approximations of quantization functions have been proposed to address this issue. In this paper, we prove that when the learning rate is sufficiently small, a large class of weight gradient estimators is equivalent with the straight through estimator (STE). Specifically, after swapping in the STE and adjusting both the weight initialization and the learning rate in SGD, the model will train in almost exactly the same way as it did with the original gradient estimator. Moreover, we show that for adaptive learning rate algorithms like Adam, the same result can be seen without any modifications to the weight initialization and learning rate. We experimentally show that these results hold for both a small convolutional model trained on the MNIST dataset and for a ResNet50 model trained on ImageNet.

arxiv情報

著者 Matt Schoenbauer,Daniele Moro,Lukasz Lew,Andrew Howard
発行日 2024-05-08 16:07:56+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG パーマリンク