Structure and Gradient Dynamics Near Global Minima of Two-layer Neural Networks

要約

マイルドな仮定の下で、2層ニューラルネットワークの大域的極小値近傍の損失ランドスケープの構造を調べ、完全な汎化を与えるパラメータのセットを決定し、その周りの勾配の流れを完全に特徴付ける。新しい手法により、複雑な損失ランドスケープの単純な側面を明らかにし、モデル、目標関数、サンプル、初期化が学習ダイナミクスに異なる影響を与えることを明らかにする。これらの結果に基づき、(オーバーパラメトリックな)ニューラルネットワークがなぜうまく汎化できるのかも説明する。

要約(オリジナル)

Under mild assumptions, we investigate the structure of loss landscape of two-layer neural networks near global minima, determine the set of parameters which give perfect generalization, and fully characterize the gradient flows around it. With novel techniques, our work uncovers some simple aspects of the complicated loss landscape and reveals how model, target function, samples and initialization affect the training dynamics differently. Based on these results, we also explain why (overparametrized) neural networks could generalize well.

arxiv情報

著者 Leyang Zhang,Yaoyu Zhang,Tao Luo
発行日 2023-09-01 14:53:51+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.LG, math.DS パーマリンク