Emergence and scaling laws in SGD learning of shallow neural networks

要約

等方性ガウスデータで$ p $ニューロンを使用して2層ニューロンネットワークを学習するためのオンライン確率勾配降下(SGD)の複雑さを研究してください:$ f _*(\ boldsymbol {x})= \ sum_ {p = 1}^p a_p \ cdot
\ sigma(\ langle \ boldsymbol {x}、\ boldsymbol {v} _p^*\ rangle)$、$ \ boldsymbol {x} \ sim \ mathcal {n}(0、\ boldsymbol {i} _d)$、アクティブ化
$ \ sigma:\ mathbb {r} \ to \ mathbb {r} $は、情報指数$ k _*> 2 $(エルミテ拡張の最低度として定義されています)、$ \ {\ boldsymbol {v}^*_ _ p \} _ {p] {p]
オルソーマル信号方向であり、非陰性の第2層係数は$ \ sum_ {p} a_p^2 = 1 $を満たします。
私たちは、挑戦的な「広範な幅」体制$ p \ gg 1 $に焦点を当て、第二層の分岐条件数を許可します。
学生2層ネットワークのトレーニングのためのSGDダイナミクスの正確な分析を提供して、平均四角誤差(MSE)目的を最小限に抑え、各信号方向を回復するための鋭い遷移時間を明示的に識別します。
パワーローの設定では、トレーニングサンプルの数とSGDステップの数、および学生ニューラルネットワークのパラメーターの数に関して、MSE損失のスケーリング法の指数を特徴付けます。
私たちの分析には、個々の教師ニューロンの学習が急激な遷移を示す一方で、異なるタイムスケールでの$ p \ gg 1 $の緊急学習曲線の並置は、累積目的でスムーズなスケーリング法につながることを伴います。

要約(オリジナル)

We study the complexity of online stochastic gradient descent (SGD) for learning a two-layer neural network with $P$ neurons on isotropic Gaussian data: $f_*(\boldsymbol{x}) = \sum_{p=1}^P a_p\cdot \sigma(\langle\boldsymbol{x},\boldsymbol{v}_p^*\rangle)$, $\boldsymbol{x} \sim \mathcal{N}(0,\boldsymbol{I}_d)$, where the activation $\sigma:\mathbb{R}\to\mathbb{R}$ is an even function with information exponent $k_*>2$ (defined as the lowest degree in the Hermite expansion), $\{\boldsymbol{v}^*_p\}_{p\in[P]}\subset \mathbb{R}^d$ are orthonormal signal directions, and the non-negative second-layer coefficients satisfy $\sum_{p} a_p^2=1$. We focus on the challenging “extensive-width” regime $P\gg 1$ and permit diverging condition number in the second-layer, covering as a special case the power-law scaling $a_p\asymp p^{-\beta}$ where $\beta\in\mathbb{R}_{\ge 0}$. We provide a precise analysis of SGD dynamics for the training of a student two-layer network to minimize the mean squared error (MSE) objective, and explicitly identify sharp transition times to recover each signal direction. In the power-law setting, we characterize scaling law exponents for the MSE loss with respect to the number of training samples and SGD steps, as well as the number of parameters in the student neural network. Our analysis entails that while the learning of individual teacher neurons exhibits abrupt transitions, the juxtaposition of $P\gg 1$ emergent learning curves at different timescales leads to a smooth scaling law in the cumulative objective.

arxiv情報

著者 Yunwei Ren,Eshaan Nichani,Denny Wu,Jason D. Lee
発行日 2025-04-28 16:58:55+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, stat.ML パーマリンク