Early Directional Convergence in Deep Homogeneous Neural Networks for Small Initializations

要約

このホワイトペーパーでは、局所的にリプシッツグラデーションと2つ以上の均一性の順序があると想定される深い均一なニューラルネットワークをトレーニングするときに発生する勾配フローダイナミクスを研究します。
ここでは、十分に小さな初期化のために、トレーニングの初期段階では、ニューラルネットワークの重みは(ユークリッド)規範では小さく、最近導入された神経相関関数のKarush-Kuhn-Tucker(kkt)ポイントにほぼ収束することが示されています。
さらに、このホワイトペーパーでは、(漏れやすい)reluおよび多項式(漏れやすい)のreluアクティベーションを備えたフィードフォワードネットワークの神経相関関数のKKTポイントも研究し、ランク1つのKKTポイントに必要かつ十分な条件を導き出します。

要約(オリジナル)

This paper studies the gradient flow dynamics that arise when training deep homogeneous neural networks assumed to have locally Lipschitz gradients and an order of homogeneity strictly greater than two. It is shown here that for sufficiently small initializations, during the early stages of training, the weights of the neural network remain small in (Euclidean) norm and approximately converge in direction to the Karush-Kuhn-Tucker (KKT) points of the recently introduced neural correlation function. Additionally, this paper also studies the KKT points of the neural correlation function for feed-forward networks with (Leaky) ReLU and polynomial (Leaky) ReLU activations, deriving necessary and sufficient conditions for rank-one KKT points.

arxiv情報

著者 Akshay Kumar,Jarvis Haupt
発行日 2025-03-14 16:46:23+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, math.OC, stat.ML パーマリンク