Weak Correlations as the Underlying Principle for Linearization of Gradient-Based Learning Systems

要約

ワイド ニューラル ネットワークなどの深層学習モデルは、相互作用する多数の自由度を特徴とする非線形動的物理システムとして概念化できます。
無限の限界にあるこのようなシステムは、単純化されたダイナミクスを示す傾向があります。
この論文では、ニューラル タンジェント カーネルを彷彿とさせるパラメータ ダイナミクスの線形構造を示す勾配降下法ベースの学習アルゴリズムについて詳しく説明します。
この見かけの線形性は、パラメータに関する、初期値の周囲で取られた仮説関数の一次導関数と高次導関数との間の弱い相関によって生じることを確立します。
この洞察は、これらの弱い相関が、そのようなシステムで観察される線形化の根本的な理由である可能性があることを示唆しています。
適切な例として、大きな幅制限におけるニューラル ネットワーク内のこの弱い相関構造を紹介します。
線形性と弱い相関の間の関係を利用して、確率的勾配降下法のトレーニング軌跡中に観察された線形性からの偏差の限界を導き出します。
証明を容易にするために、ランダム テンソルの漸近挙動を特徴付ける新しい方法を導入します。

要約(オリジナル)

Deep learning models, such as wide neural networks, can be conceptualized as nonlinear dynamical physical systems characterized by a multitude of interacting degrees of freedom. Such systems in the infinite limit, tend to exhibit simplified dynamics. This paper delves into gradient descent-based learning algorithms, that display a linear structure in their parameter dynamics, reminiscent of the neural tangent kernel. We establish this apparent linearity arises due to weak correlations between the first and higher-order derivatives of the hypothesis function, concerning the parameters, taken around their initial values. This insight suggests that these weak correlations could be the underlying reason for the observed linearization in such systems. As a case in point, we showcase this weak correlations structure within neural networks in the large width limit. Exploiting the relationship between linearity and weak correlations, we derive a bound on deviations from linearity observed during the training trajectory of stochastic gradient descent. To facilitate our proof, we introduce a novel method to characterise the asymptotic behavior of random tensors.

arxiv情報

著者 Ori Shem-Ur,Yaron Oz
発行日 2024-01-08 16:44:23+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cond-mat.stat-mech, cs.LG, hep-th, math.PR, stat.ML パーマリンク