GD doesn’t make the cut: Three ways that non-differentiability affects neural network training

要約

このホワイトペーパーでは、微分可能な機能の非分化不可能な関数(NGDMS)と古典的な勾配下脱直(GDS)に適用される勾配法の基本的な区別を批判的に検証し、現在の深い学習最適化理論の重要なギャップを明らかにします。
NGDMSはGDSと比較して著しく異なる収束特性を示し、$ L-SMOORTHNESS $に基づいて非滑らかなニューラルネットワークに基づいた広範なニューラルネットワーク収束文献の適用性に強く挑戦することを実証します。
私たちの分析では、$ l_ {1} $ – 正規化された問題に対するNDGMソリューションの逆説的な挙動が明らかになります。
この発見は、広く採用された$ L_ {1} $ネットワーク剪定のペナルティテクニックを広く採用しています。
さらに、RMSPropのような最適化アルゴリズムが微分可能で非拡張性のないコンテキストで同様に動作するという一般的な仮定に挑戦します。
安定性現象の端で拡大すると、Lipschitzの連続凸誘導性関数を含む、より広いクラスの機能でその発生を示します。
この発見は、非凸で非拡散性のあるニューラルネットワーク、特にRelu Activationsを使用しているものにおけるその関連性と解釈に関する重要な疑問を提起します。
私たちの仕事は、強力な滑らかさの仮定への過度の依存に起因する、影響力のある文献におけるNDGMの重要な誤解を特定しています。
これらの調査結果は、深い学習における最適化ダイナミクスの再評価を必要とし、これらの複雑なシステムを分析する際に、より微妙な理論的基礎の重要な必要性を強調します。

要約(オリジナル)

This paper critically examines the fundamental distinctions between gradient methods applied to non-differentiable functions (NGDMs) and classical gradient descents (GDs) for differentiable functions, revealing significant gaps in current deep learning optimization theory. We demonstrate that NGDMs exhibit markedly different convergence properties compared to GDs, strongly challenging the applicability of extensive neural network convergence literature based on $L-smoothness$ to non-smooth neural networks. Our analysis reveals paradoxical behavior of NDGM solutions for $L_{1}$-regularized problems, where increasing regularization counterintuitively leads to larger $L_{1}$ norms of optimal solutions. This finding calls into question widely adopted $L_{1}$ penalization techniques for network pruning. We further challenge the common assumption that optimization algorithms like RMSProp behave similarly in differentiable and non-differentiable contexts. Expanding on the Edge of Stability phenomenon, we demonstrate its occurrence in a broader class of functions, including Lipschitz continuous convex differentiable functions. This finding raises important questions about its relevance and interpretation in non-convex, non-differentiable neural networks, particularly those using ReLU activations. Our work identifies critical misunderstandings of NDGMs in influential literature, stemming from an overreliance on strong smoothness assumptions. These findings necessitate a reevaluation of optimization dynamics in deep learning, emphasizing the crucial need for more nuanced theoretical foundations in analyzing these complex systems.

arxiv情報

著者 Siddharth Krishna Kumar
発行日 2025-06-02 00:49:57+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG パーマリンク