要約
理論的には、ニューラルネットワークの[0, 1]におけるReLU(0)の選択は、バックプロパゲーションとトレーニングの両方に無視できるほどの影響を与える。しかし、現実の世界では、32ビットのデフォルト精度とディープラーニングの問題サイズとが相まって、ReLU(0)はトレーニング手法のハイパーパラメータとなっている。我々は、様々なネットワーク(完全連結、VGG、ResNet)とデータセット(MNIST、CIFAR10、SVHN、ImageNet)において、いくつかの精度レベル(16、32、64ビット)のReLU'(0)の値の重要性を調査した。その結果、32ビット精度ではバックプロパゲーションの出力にかなりのばらつきがあることがわかった。倍精度ではこの影響はなくなり、16ビットでは系統的である。バニラSGD学習では、ReLU'(0) = 0の選択が最も効率的であるようだ。ImageNetでの実験では、ReLU'(0) = 1に対するテスト精度の向上は10ポイント以上であった(2回実行)。また、バッチノルムやADAMのような再調整アプローチは、ReLU'(0)の値の影響を緩衝する傾向があることを示す。全体として、我々が伝えるメッセージは、アルゴリズムによる非平滑問題の微分には、有利に調整できるパラメータが隠されている可能性があるということである。
要約(オリジナル)
In theory, the choice of ReLU(0) in [0, 1] for a neural network has a negligible influence both on backpropagation and training. Yet, in the real world, 32 bits default precision combined with the size of deep learning problems makes it a hyperparameter of training methods. We investigate the importance of the value of ReLU'(0) for several precision levels (16, 32, 64 bits), on various networks (fully connected, VGG, ResNet) and datasets (MNIST, CIFAR10, SVHN, ImageNet). We observe considerable variations of backpropagation outputs which occur around half of the time in 32 bits precision. The effect disappears with double precision, while it is systematic at 16 bits. For vanilla SGD training, the choice ReLU'(0) = 0 seems to be the most efficient. For our experiments on ImageNet the gain in test accuracy over ReLU'(0) = 1 was more than 10 points (two runs). We also evidence that reconditioning approaches as batch-norm or ADAM tend to buffer the influence of ReLU'(0)’s value. Overall, the message we convey is that algorithmic differentiation of nonsmooth problems potentially hides parameters that could be tuned advantageously.
arxiv情報
著者 | David Bertoin,Jérôme Bolte,Sébastien Gerchinovitz,Edouard Pauwels |
発行日 | 2023-11-03 13:21:16+00:00 |
arxivサイト | arxiv_id(pdf) |