Limitations of neural network training due to numerical instability of backpropagation

要約

私たちは、浮動小数点演算を使用して勾配を計算する勾配降下法によるディープ ニューラル ネットワークのトレーニングを研究します。
このフレームワークと現実的な仮定の下では、勾配降下法によるトレーニングの過程で、層数に対して超線形的に多くのアフィン ピースを維持する ReLU ニューラル ネットワークが見つかる可能性は非常に低いことを示します。
高次の多項式近似率をもたらすほぼすべての近似理論的議論では、層の数に比べて指数関数的に多くのアフィン ピースを持つ ReLU ニューラル ネットワークのシーケンスが使用されます。
その結果、実際の勾配降下法から得られる ReLU ニューラル ネットワークの近似シーケンスは、理論的に構築されたシーケンスとは大幅に異なると結論付けられます。
仮定と理論的結果が数値研究と比較され、一致する結果が得られます。

要約(オリジナル)

We study the training of deep neural networks by gradient descent where floating-point arithmetic is used to compute the gradients. In this framework and under realistic assumptions, we demonstrate that it is highly unlikely to find ReLU neural networks that maintain, in the course of training with gradient descent, superlinearly many affine pieces with respect to their number of layers. In virtually all approximation theoretical arguments that yield high-order polynomial rates of approximation, sequences of ReLU neural networks with exponentially many affine pieces compared to their numbers of layers are used. As a consequence, we conclude that approximating sequences of ReLU neural networks resulting from gradient descent in practice differ substantially from theoretically constructed sequences. The assumptions and the theoretical results are compared to a numerical study, which yields concurring results.

arxiv情報

著者 Clemens Karner,Vladimir Kazeev,Philipp Christian Petersen
発行日 2023-11-15 18:56:59+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: 41A25, 65G50, 68T07, 68T09, cs.LG, math.FA, stat.ML パーマリンク