要約
私たちは、いくつかの大規模なバッチ勾配降下ステップを通じて、2 層ニューラル ネットワークの特徴がどのようにターゲット関数の構造に適応し、初期化に関する近似能力の向上につながるかを理論的に調査します。
バッチ サイズの影響と複数の (ただし有限の) ステップの影響を比較します。
単一の勾配ステップの場合、学習できるのは単一方向のみですが、サイズ $n = \mathcal{O}(d)$ のバッチはターゲット関数と一致させるのに必要かつ十分です。
対照的に、$n = \mathcal{O}(d^2)$ は、ニューロンが単一の勾配ステップでターゲットの複数の関連する方向に特化するために不可欠です。
この場合でも、$n = \mathcal{O}(d^\ell)$ サンプルの学習を必要とする「難しい」方向が存在する可能性があることを示します。ここで、$\ell$ は、
目標。
この状況は、複数の勾配ステップにわたって劇的に改善されます。$n = \mathcal{O}(d)$ のバッチサイズで、階段特性を満たす複数のターゲット方向を学習するには実際に十分であることがわかり、より多くの方向を学習できるようになります。
時間とともに。
最後に、これらの方向性によって、初期化に比べて近似能力と一般化誤差がどのように大幅に改善されるかを説明し、ランダム特徴/遅延レジームと特徴学習レジームの間のスケールの分離を示します。
当社のテクニカル分析では、集中、投影ベースの調整、ガウス等価性に関連する技術の組み合わせを活用しており、これらは独立して重要であると考えられます。
専門化と学習に必要な条件を突き止めることで、私たちの結果はバッチサイズと反復回数の相互作用を強調し、時間とバッチサイズの経過とともに学習パフォーマンスが精度への階段を示す階層的な描写につながり、ニューラルネットワークの仕組みについて新たな光を当てています。
ネットワークはデータの特徴に適応します。
要約(オリジナル)
We investigate theoretically how the features of a two-layer neural network adapt to the structure of the target function through a few large batch gradient descent steps, leading to improvement in the approximation capacity with respect to the initialization. We compare the influence of batch size and that of multiple (but finitely many) steps. For a single gradient step, a batch of size $n = \mathcal{O}(d)$ is both necessary and sufficient to align with the target function, although only a single direction can be learned. In contrast, $n = \mathcal{O}(d^2)$ is essential for neurons to specialize to multiple relevant directions of the target with a single gradient step. Even in this case, we show there might exist “hard” directions requiring $n = \mathcal{O}(d^\ell)$ samples to be learned, where $\ell$ is known as the leap index of the target. The picture drastically improves over multiple gradient steps: we show that a batch-size of $n = \mathcal{O}(d)$ is indeed enough to learn multiple target directions satisfying a staircase property, where more and more directions can be learned over time. Finally, we discuss how these directions allows to drastically improve the approximation capacity and generalization error over the initialization, illustrating a separation of scale between the random features/lazy regime, and the feature learning regime. Our technical analysis leverages a combination of techniques related to concentration, projection-based conditioning, and Gaussian equivalence which we believe are of independent interest. By pinning down the conditions necessary for specialization and learning, our results highlight the interaction between batch size and number of iterations, and lead to a hierarchical depiction where learning performance exhibits a stairway to accuracy over time and batch size, shedding new light on how neural networks adapt to features of the data.
arxiv情報
著者 | Yatin Dandi,Florent Krzakala,Bruno Loureiro,Luca Pesce,Ludovic Stephan |
発行日 | 2023-10-02 14:51:39+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google