On the Effect of Initialization: The Scaling Path of 2-Layer Neural Networks

要約

タイトル:初期化の影響について:2層ニューラルネットワークのスケーリングパス

要約:

– 教師あり学習において、正則化パスはしばしば、ゼロで初期化された勾配降下法の最適化パスの理論的な代理として使用される。
– この論文では、異なるスケールの非ゼロ初期ウェイトを持つ無限幅2層ReLUニューラルネットワークの正則化パスの変更を研究する。
– 不均衡最適輸送理論との関連を利用して、この問題が2層ネットワークトレーニングの非凸性にもかかわらず、無限次元の凸先行問題を有することを示す。
– 対応する機能最適化問題を定式化し、その主な特性を調査する。
– 特に、初期化のスケールが0から+∞の間で変化するにつれて、関連するパスがカーネルとリッチなレジメンツと呼ばれるものの間を連続的に補完することを示す。
– 数値実験は、我々の設定において、スケーリングパスと最適化パスの最終状態は、これらの極端な点を超えても同様に振る舞うことを確認している。

要約(オリジナル)

In supervised learning, the regularization path is sometimes used as a convenient theoretical proxy for the optimization path of gradient descent initialized with zero. In this paper, we study a modification of the regularization path for infinite-width 2-layer ReLU neural networks with non-zero initial distribution of the weights at different scales. By exploiting a link with unbalanced optimal transport theory, we show that, despite the non-convexity of the 2-layer network training, this problem admits an infinite dimensional convex counterpart. We formulate the corresponding functional optimization problem and investigate its main properties. In particular, we show that as the scale of the initialization ranges between $0$ and $+\infty$, the associated path interpolates continuously between the so-called kernel and rich regimes. The numerical experiments confirm that, in our setting, the scaling path and the final states of the optimization path behave similarly even beyond these extreme points.

arxiv情報

著者 Sebastian Neumayer,Lénaïc Chizat,Michael Unser
発行日 2023-03-31 05:32:11+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.LG, math.OC パーマリンク