Learning Two-Layer Neural Networks, One (Giant) Step at a Time

要約

私たちは浅いニューラル ネットワークのトレーニング ダイナミクスを研究し、限られた数の大規模なバッチ勾配降下ステップがカーネル領域を超えた特徴学習を促進できる条件を調査します。
バッチ サイズの影響と複数の (ただし有限の) ステップの影響を比較します。
単一ステップのプロセスを分析した結果、$n = O(d)$ のバッチ サイズでは特徴学習が可能ですが、単一方向または単一インデックス モデルの学習にのみ適切であることが明らかになりました。
対照的に、$n = O(d^2)$ は、複数の方向と専門性を学習するために不可欠です。
さらに、最初の $\ell$ Hermite 係数を欠く「ハード」方向は観測されず、勾配降下法で捕捉するには $n = O(d^\ell)$ のバッチ サイズが必要であることを示します。
いくつかのステップを繰り返すと、シナリオが変わります。$n = O(d)$ のバッチサイズは、以前に学習した方向にエルミート基底で線形に接続された部分空間にわたる新しいターゲットの方向を学習するのに十分であり、それによって階段特性が得られます。
私たちの分析では、独立した関心のある集中、投影ベースの調整、ガウス等価性に関連する技術を組み合わせて利用します。
学習と専門化に必要な条件を決定することで、私たちの結果はバッチ サイズと反復回数の相互作用を強調し、時間とバッチ サイズの経過とともに学習パフォーマンスが精度への階段を示す階層的な描写につながり、機能学習に新たな光を当てます。
ニューラルネットワーク。

要約(オリジナル)

We study the training dynamics of shallow neural networks, investigating the conditions under which a limited number of large batch gradient descent steps can facilitate feature learning beyond the kernel regime. We compare the influence of batch size and that of multiple (but finitely many) steps. Our analysis of a single-step process reveals that while a batch size of $n = O(d)$ enables feature learning, it is only adequate for learning a single direction, or a single-index model. In contrast, $n = O(d^2)$ is essential for learning multiple directions and specialization. Moreover, we demonstrate that “hard” directions, which lack the first $\ell$ Hermite coefficients, remain unobserved and require a batch size of $n = O(d^\ell)$ for being captured by gradient descent. Upon iterating a few steps, the scenario changes: a batch-size of $n = O(d)$ is enough to learn new target directions spanning the subspace linearly connected in the Hermite basis to the previously learned directions, thereby a staircase property. Our analysis utilizes a blend of techniques related to concentration, projection-based conditioning, and Gaussian equivalence that are of independent interest. By determining the conditions necessary for learning and specialization, our results highlight the interaction between batch size and number of iterations, and lead to a hierarchical depiction where learning performance exhibits a stairway to accuracy over time and batch size, shedding new light on feature learning in neural networks.

arxiv情報

著者 Yatin Dandi,Florent Krzakala,Bruno Loureiro,Luca Pesce,Ludovic Stephan
発行日 2023-05-29 17:43:44+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, stat.ML パーマリンク