A Random Matrix Theory Perspective on the Spectrum of Learned Features and Asymptotic Generalization Capabilities

要約

ニューラル ネットワークの重要な特性は、トレーニング中にデータに適応する能力です。
しかし、特徴学習とその一般化との関係についての現在の数学的理解は限られたままです。
この研究では、単一の、しかし積極的な勾配降下ステップの後に、完全に接続された 2 層ニューラル ネットワークがターゲット関数にどのように適応するかについてのランダム マトリックス分析を提供します。
大きなバッチサイズの制限内で、更新された特徴と等方性スパイクランダム特徴モデルの間の等価性を厳密に確立します。
後者のモデルでは、特定の低次元演算子を使用して、特徴の経験的共分散行列の決定論的等価記述を導出します。
これにより、漸近特徴スペクトルにおけるトレーニングの影響を明確に特徴付けることができ、特に、特徴スペクトルの裾がトレーニングによってどのように変化するかについての理論的根拠が得られます。
さらに、決定論的等価物から正確な漸近一般化誤差が得られ、特徴学習の存在下での改善の背後にあるメカニズムが明らかになります。
私たちの結果は標準的なランダム行列アンサンブルを超えているため、独立した技術的関心があると考えています。
以前の研究とは異なり、私たちの結果は、挑戦的な最大学習率領域に当てはまり、完全に厳密であり、有限にサポートされる第 2 層の初期化を可能にします。これは、学習された特徴の関数的表現力を研究するために重要であることがわかります。
これは、ランダムな特徴や遅延トレーニング方式を超えて、2 層ニューラル ネットワークの一般化における特徴学習の影響を明確に説明します。

要約(オリジナル)

A key property of neural networks is their capacity of adapting to data during training. Yet, our current mathematical understanding of feature learning and its relationship to generalization remain limited. In this work, we provide a random matrix analysis of how fully-connected two-layer neural networks adapt to the target function after a single, but aggressive, gradient descent step. We rigorously establish the equivalence between the updated features and an isotropic spiked random feature model, in the limit of large batch size. For the latter model, we derive a deterministic equivalent description of the feature empirical covariance matrix in terms of certain low-dimensional operators. This allows us to sharply characterize the impact of training in the asymptotic feature spectrum, and in particular, provides a theoretical grounding for how the tails of the feature spectrum modify with training. The deterministic equivalent further yields the exact asymptotic generalization error, shedding light on the mechanisms behind its improvement in the presence of feature learning. Our result goes beyond standard random matrix ensembles, and therefore we believe it is of independent technical interest. Different from previous work, our result holds in the challenging maximal learning rate regime, is fully rigorous and allows for finitely supported second layer initialization, which turns out to be crucial for studying the functional expressivity of the learned features. This provides a sharp description of the impact of feature learning in the generalization of two-layer neural networks, beyond the random features and lazy training regimes.

arxiv情報

著者 Yatin Dandi,Luca Pesce,Hugo Cui,Florent Krzakala,Yue M. Lu,Bruno Loureiro
発行日 2024-10-24 17:24:34+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, math.ST, stat.ML, stat.TH パーマリンク