On the numerical reliability of nonsmooth autodiff: a MaxPool case study

要約

この論文では、非滑らかな MaxPool 演算を伴うニューラル ネットワークの自動微分 (AD) の信頼性を検討します。
さまざまなデータセット (MNIST、CIFAR10、SVHN、および ImageNet) 上のさまざまな精度レベル (16、32、64 ビット) および畳み込みアーキテクチャ (LeNet、VGG、および ResNet) にわたる AD の動作を調査します。
AD は不正確である可能性がありますが、最近の研究では、滑らかでない操作 (MaxPool や ReLU など) が存在する場合でも、AD がほぼどこでも導関数と一致することが示されています。
一方、実際には、AD は浮動小数点数 (実数ではない) で動作するため、AD が数値的に正しくない可能性があるサブセットを調査する必要があります。
これらのサブセットには、分岐ゾーン (AD が実数に対して不正確である場合) と補償ゾーン (AD が浮動小数点数に対して不正確であるが、実数に対しては正しい場合) が含まれます。
トレーニング プロセスに SGD を使用して、MaxPool 関数の非滑らかなヤコビアンのさまざまな選択が 16 ビットと 32 ビットの精度に及ぼす影響を研究します。
これらの結果は、ノルムが低い非滑らかな MaxPool ヤコビアンは安定した効率的なテスト精度を維持するのに役立ちますが、ノルムが高い場合は不安定になりパフォーマンスが低下する可能性があることを示唆しています。
また、MaxPool の非滑らかなヤコビアンが学習に及ぼす影響は、バッチ正規化、Adam のようなオプティマイザーを使用するか、精度レベルを高めることによって軽減できることも観察されています。

要約(オリジナル)

This paper considers the reliability of automatic differentiation (AD) for neural networks involving the nonsmooth MaxPool operation. We investigate the behavior of AD across different precision levels (16, 32, 64 bits) and convolutional architectures (LeNet, VGG, and ResNet) on various datasets (MNIST, CIFAR10, SVHN, and ImageNet). Although AD can be incorrect, recent research has shown that it coincides with the derivative almost everywhere, even in the presence of nonsmooth operations (such as MaxPool and ReLU). On the other hand, in practice, AD operates with floating-point numbers (not real numbers), and there is, therefore, a need to explore subsets on which AD can be numerically incorrect. These subsets include a bifurcation zone (where AD is incorrect over reals) and a compensation zone (where AD is incorrect over floating-point numbers but correct over reals). Using SGD for the training process, we study the impact of different choices of the nonsmooth Jacobian for the MaxPool function on the precision of 16 and 32 bits. These findings suggest that nonsmooth MaxPool Jacobians with lower norms help maintain stable and efficient test accuracy, whereas those with higher norms can result in instability and decreased performance. We also observe that the influence of MaxPool’s nonsmooth Jacobians on learning can be reduced by using batch normalization, Adam-like optimizers, or increasing the precision level.

arxiv情報

著者 Ryan Boustany
発行日 2024-01-05 10:14:39+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, cs.NA, math.NA, math.OC, stat.ML パーマリンク