要約
この論文では、ランダム行列理論と自由確率の基本ツールを使用した、さまざまな高次元リッジ回帰モデルのトレーニングと汎化パフォーマンスの簡潔な導出を示します。
物理学と深層学習の背景を持つ読者を対象に、これらのトピックに関する最近の結果の紹介とレビューを提供します。
訓練誤差と一般化誤差の解析式は、自由確率の $S$ 変換の性質から直接数行の代数で得られます。
これにより、モデルのパフォーマンスにおけるべき乗則のスケーリングの原因を簡単に特定できます。
幅広いクラスのランダム特徴モデルの汎化誤差を計算します。
すべてのモデルにおいて、$S$ 変換はトレーニングとテストの一般化ギャップに対応し、一般化相互検証推定量の類似物を生成することがわかります。
これらの手法を使用して、構造化共変量を含む非常に一般的なクラスのランダム特徴モデルに対するきめの細かいバイアス分散分解を導出します。
これらの新しい結果により、特徴による分散が過剰パラメータ設定でのパフォーマンスを制限するランダム特徴モデルのスケーリング方式を発見することができます。
また、ランダム特徴モデルの異方性重み構造がどのようにパフォーマンスを制限し、オーバーパラメータ化された設定で有限幅補正の指数が自明ではなくなる可能性があるかを示します。
私たちの結果は、ニューラル スケーリング則の初期のモデルを拡張し、統一的な視点を提供します。
要約(オリジナル)
This paper presents a succinct derivation of the training and generalization performance of a variety of high-dimensional ridge regression models using the basic tools of random matrix theory and free probability. We provide an introduction and review of recent results on these topics, aimed at readers with backgrounds in physics and deep learning. Analytic formulas for the training and generalization errors are obtained in a few lines of algebra directly from the properties of the $S$-transform of free probability. This allows for a straightforward identification of the sources of power-law scaling in model performance. We compute the generalization error of a broad class of random feature models. We find that in all models, the $S$-transform corresponds to the train-test generalization gap, and yields an analogue of the generalized-cross-validation estimator. Using these techniques, we derive fine-grained bias-variance decompositions for a very general class of random feature models with structured covariates. These novel results allow us to discover a scaling regime for random feature models where the variance due to the features limits performance in the overparameterized setting. We also demonstrate how anisotropic weight structure in random feature models can limit performance and lead to nontrivial exponents for finite-width corrections in the overparameterized setting. Our results extend and provide a unifying perspective on earlier models of neural scaling laws.
arxiv情報
著者 | Alexander B. Atanasov,Jacob A. Zavatone-Veth,Cengiz Pehlevan |
発行日 | 2024-05-01 15:59:00+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google