Wide neural networks: From non-gaussian random fields at initialization to the NTK geometry of training

要約

タイトル:広範なニューラルネットワーク:初期化時の非ガウスランダムフィールドからトレーニングのNTKジオメトリまで
要約:
– 大きな $n=10^{14}$ パラメータを持つ人工ニューラルネットワークの応用の最近の進展は、そのようなネットワークの大きな $n$ 挙動を研究することが非常に重要である。
– 広範なニューラルネットワークを研究する多くの研究では、初期化時に、無限幅 $n \to +\infty$ の場合に、ガウスプロセスに対応することが示されている。
– 本研究では、大きいが有限な $n$ の場合について研究する。
– 本研究の主な貢献は以下の通りである:
1. 係数は、パラメータ初期化の統計と活性化関数によって決定される漸近的な $n^{-\frac{1}{2}}$ の級数でガウス性の補正を計算すること。
2. (無限幅) $n \to +\infty$の場合に、ネットワークが線形フローを通じて進化することを改善することによって、有限幅 $n$ ネットワークの出力の進化を制御すること。これにより、(有限幅) NTKの$n$に関する鋭い減衰率が、トレーニングプロセス全体で有効になる。その結果、十分に広いニューラルネットワークのトレーニングが、対応する二次損失関数のグローバル最小値に収束することが、任意の高い確率で証明される。
3. $n$に関して、ガウス性の偏差がトレーニング中にどのように進化するかを推定すること。特に、ある測定空間での測定を用いて、進行とともに結果の測定が、時間的に無限幅ネットワークに対応するガウスプロセスから$n^{-\frac{1}{2}} (\log n)^{1+}$の範囲内にあることがわかる。

要約(オリジナル)

Recent developments in applications of artificial neural networks with over $n=10^{14}$ parameters make it extremely important to study the large $n$ behaviour of such networks. Most works studying wide neural networks have focused on the infinite width $n \to +\infty$ limit of such networks and have shown that, at initialization, they correspond to Gaussian processes. In this work we will study their behavior for large, but finite $n$. Our main contributions are the following: (1) The computation of the corrections to Gaussianity in terms of an asymptotic series in $n^{-\frac{1}{2}}$. The coefficients in this expansion are determined by the statistics of parameter initialization and by the activation function. (2) Controlling the evolution of the outputs of finite width $n$ networks, during training, by computing deviations from the limiting infinite width case (in which the network evolves through a linear flow). This improves previous estimates and yields sharper decay rates for the (finite width) NTK in terms of $n$, valid during the entire training procedure. As a corollary, we also prove that, with arbitrarily high probability, the training of sufficiently wide neural networks converges to a global minimum of the corresponding quadratic loss function. (3) Estimating how the deviations from Gaussianity evolve with training in terms of $n$. In particular, using a certain metric in the space of measures we find that, along training, the resulting measure is within $n^{-\frac{1}{2}}(\log n)^{1+}$ of the time dependent Gaussian process corresponding to the infinite width network (which is explicitly given by precomposing the initial Gaussian process with the linear flow corresponding to training in the infinite width limit).

arxiv情報

著者 Luís Carvalho,João Lopes Costa,José Mourão,Gonçalo Oliveira
発行日 2023-04-06 21:34:13+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: 68T01, 68T07, cs.LG, cs.NE, G.3, math.PR パーマリンク