The Benefits of Reusing Batches for Gradient Descent in Two-Layer Networks: Breaking the Curse of Information and Leap Exponents

要約

多指数の目標関数を学習する際の2層ニューラルネットワークの学習ダイナミクスを調べる。バッチを複数回再利用するマルチパス勾配降下(GD)に注目し、シングルパス勾配降下と比較して、どの関数が学習可能かについての結論が大きく変わることを示す。特に、有限ステップサイズを持つマルチパス勾配降下は、ターゲット関数の情報指数(Ben Arous et al., 2021)とリープ指数(Abbe et al., 2023)によって与えられる勾配フローとシングルパス勾配降下の限界を克服することができる。バッチを再利用することで、階段特性(Abbe et al., 2021)を満たさない関数であっても、ネットワークはわずか2回の時間ステップで目標部分空間との重なりを達成することを示す。我々は、有限時間で効率的に学習される関数の(広範な)クラスを特徴付ける。我々の結果の証明は、動的平均場理論(Dynamical Mean-Field Theory: DMFT)の解析に基づいている。さらに、重みの低次元投影の動的過程の閉形式の記述と、理論を説明する数値実験を提供する。

要約(オリジナル)

We investigate the training dynamics of two-layer neural networks when learning multi-index target functions. We focus on multi-pass gradient descent (GD) that reuses the batches multiple times and show that it significantly changes the conclusion about which functions are learnable compared to single-pass gradient descent. In particular, multi-pass GD with finite stepsize is found to overcome the limitations of gradient flow and single-pass GD given by the information exponent (Ben Arous et al., 2021) and leap exponent (Abbe et al., 2023) of the target function. We show that upon re-using batches, the network achieves in just two time steps an overlap with the target subspace even for functions not satisfying the staircase property (Abbe et al., 2021). We characterize the (broad) class of functions efficiently learned in finite time. The proof of our results is based on the analysis of the Dynamical Mean-Field Theory (DMFT). We further provide a closed-form description of the dynamical process of the low-dimensional projections of the weights, and numerical experiments illustrating the theory.

arxiv情報

著者 Yatin Dandi,Emanuele Troiani,Luca Arnaboldi,Luca Pesce,Lenka Zdeborová,Florent Krzakala
発行日 2024-02-05 17:30:42+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.LG, stat.ML パーマリンク