Three ways that non-differentiability affects neural network training

要約

この論文では、非微分可能性がニューラル ネットワークのトレーニング プロセスの 3 つの異なる側面にどのような影響を与えるかを調査します。
まず、ReLU 活性化を使用して完全に接続されたニューラル ネットワークを解析します。これにより、連続微分可能ニューラル ネットワークが非微分可能ニューラル ネットワークよりも速く収束することがわかります。
次に、$L_{1}$ 正則化の問題を分析し、深層学習ソルバーによって生成された解は、$L_{1}$ ペナルティのある線形モデルであっても不正確で直感に反していることを示します。
最後に、安定性の端の問題を分析します。ここでは、すべての凸で非滑らかなリプシッツ連続関数が不安定な収束を示すことを示し、1 回微分可能設定では失敗する 2 回微分可能関数を使用して導出された結果の例を示します。
より一般的には、私たちの結果は、より良いアルゴリズムを開発し、トレーニング プロセス全般をより深く理解するには、トレーニング プロセスにおけるニューラル ネットワークの非線形性を考慮することが不可欠であることを示唆しています。

要約(オリジナル)

This paper investigates how non-differentiability affects three different aspects of the neural network training process. We first analyze fully connected neural networks with ReLU activations, for which we show that the continuously differentiable neural networks converge faster than non-differentiable neural networks. Next, we analyze the problem of $L_{1}$ regularization and show that the solutions produced by deep learning solvers are incorrect and counter-intuitive even for the $L_{1}$ penalized linear model. Finally, we analyze the Edge of Stability problem, where we show that all convex, non-smooth, Lipschitz continuous functions display unstable convergence, and provide an example of a result derived using twice differentiable functions which fails in the once differentiable setting. More generally, our results suggest that accounting for the non-linearity of neural networks in the training process is essential for us to develop better algorithms, and to get a better understanding of the training process in general.

arxiv情報

著者 Siddharth Krishna Kumar
発行日 2024-01-16 15:11:29+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG パーマリンク