要約
我々は、カーネル限界を超えたニューラル・スケーリング則の可解モデルを開発する。このモデルの理論的解析により、モデルサイズ、訓練時間、利用可能なデータの総量によって性能がどのように変化するかを示す。タスクの難易度の変化に対応する3つのスケーリング領域を特定する。初期無限幅Neural Tangent Kernel(NTK)によって定義される再生カーネルヒルベルト空間(RKHS)にある、簡単なタスクと超簡単なタスクの場合、スケーリング指数は特徴学習モデルとカーネル領域モデルの間で変化しない。ハードタスク(初期NTKのRKHSの外側にあるタスクと定義)に対しては、特徴学習により学習時間と計算量のスケーリングが改善され、ハードタスクの指数がほぼ2倍になることを解析的、経験的に示す。これは、特徴学習領域において、パラメータと訓練時間をスケーリングするための異なる計算最適化戦略を導く。我々は、特徴学習が難しいタスクではスケーリング則を改善するが、簡単なタスクや超簡単なタスクでは改善しないという我々の発見を、円上のべき乗フーリエスペクトルを持つ関数にフィットする非線形MLPと、視覚タスクを学習するCNNの実験により支持する。
要約(オリジナル)
We develop a solvable model of neural scaling laws beyond the kernel limit. Theoretical analysis of this model shows how performance scales with model size, training time, and the total amount of available data. We identify three scaling regimes corresponding to varying task difficulties: hard, easy, and super easy tasks. For easy and super-easy target functions, which lie in the reproducing kernel Hilbert space (RKHS) defined by the initial infinite-width Neural Tangent Kernel (NTK), the scaling exponents remain unchanged between feature learning and kernel regime models. For hard tasks, defined as those outside the RKHS of the initial NTK, we demonstrate both analytically and empirically that feature learning can improve scaling with training time and compute, nearly doubling the exponent for hard tasks. This leads to a different compute optimal strategy to scale parameters and training time in the feature learning regime. We support our finding that feature learning improves the scaling law for hard tasks but not for easy and super-easy tasks with experiments of nonlinear MLPs fitting functions with power-law Fourier spectra on the circle and CNNs learning vision tasks.
arxiv情報
著者 | Blake Bordelon,Alexander Atanasov,Cengiz Pehlevan |
発行日 | 2025-04-04 13:47:57+00:00 |
arxivサイト | arxiv_id(pdf) |