要約
ランダム特徴モデルは、深層学習の理論において顕著な役割を果たし、無限幅の限界に近いニューラル ネットワークの動作を記述します。
この研究では、ガウス データを使用した一般的な教師あり学習問題に対するランダム特徴モデルの一般化パフォーマンスの徹底的な分析を示します。
無秩序システムの統計力学のツールを使用して構築された私たちのアプローチは、ランダム特徴モデルを等価多項式モデルにマッピングし、問題の 2 つの主要な制御パラメーターの関数として平均汎化曲線をプロットできるようにします。ランダム特徴の数
$N$ とトレーニング セットのサイズ $P$ は、どちらも入力次元 $D$ の累乗としてスケーリングすると仮定されます。
私たちの結果は、$N$、$P$、$D$ の間の比例スケーリングのケースを拡張します。
それらは、特定の特定の学習タスクについて知られている厳密な限界に従っており、$N$ と $P$ の何桁もの規模で実行された数値実験と定量的に一致しています。
$D\から\infty$、および$P/D^K$と$N/D^L$の間の少なくとも1つが有限のままである漸近限界からも遠く離れた良好な一致が見つかりました。
要約(オリジナル)
Random features models play a distinguished role in the theory of deep learning, describing the behavior of neural networks close to their infinite-width limit. In this work, we present a thorough analysis of the generalization performance of random features models for generic supervised learning problems with Gaussian data. Our approach, built with tools from the statistical mechanics of disordered systems, maps the random features model to an equivalent polynomial model, and allows us to plot average generalization curves as functions of the two main control parameters of the problem: the number of random features $N$ and the size $P$ of the training set, both assumed to scale as powers in the input dimension $D$. Our results extend the case of proportional scaling between $N$, $P$ and $D$. They are in accordance with rigorous bounds known for certain particular learning tasks and are in quantitative agreement with numerical experiments performed over many order of magnitudes of $N$ and $P$. We find good agreement also far from the asymptotic limits where $D\to \infty$ and at least one between $P/D^K$, $N/D^L$ remains finite.
arxiv情報
著者 | Fabián Aguirre-López,Silvio Franz,Mauro Pastore |
発行日 | 2024-02-15 18:09:41+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google