要約
ニューラル スケーリング則は、ディープ ニューラル ネットワークのパフォーマンスがトレーニング データ サイズ、モデルの複雑さ、トレーニング時間などの重要な要素に応じてどのようにスケールされるかを記述し、多くの場合、数桁にわたるべき乗則の動作に従います。
経験的な観察にもかかわらず、これらのスケーリング則の理論的理解は依然として限られています。
この研究では、統計力学の手法を使用して、学生と教師の両方が 2 層ニューラル ネットワークである学生と教師のフレームワーク内でワンパスの確率的勾配降下法を分析します。
私たちの研究は主に、汎化誤差と、べき乗則スペクトルを示すデータ共分散行列に応じたその動作に焦点を当てています。
線形活性化関数の場合、さまざまな学習レジームを調査し、べき乗則スケーリングが現れる条件を特定して、汎化誤差の分析式を導き出します。
さらに、特徴学習領域の非線形活性化関数まで分析を拡張し、データ共分散行列のべき乗則スペクトルが学習ダイナミクスにどのような影響を与えるかを調査します。
重要なのは、対称プラトーの長さがデータ共分散行列の個別の固有値の数と隠れ単位の数に依存することがわかり、さまざまな構成の下でこれらのプラトーがどのように動作するかを示しています。
さらに、我々の結果は、データ共分散行列がべき乗則スペクトルを持つ場合の特殊化フェーズにおける指数関数的収束からべき乗則収束への移行を明らかにしています。
この研究は、ニューラル スケーリングの法則の理論的理解に貢献し、複雑なデータ構造を含む実際のシナリオで学習パフォーマンスを最適化するための洞察を提供します。
要約(オリジナル)
Neural scaling laws describe how the performance of deep neural networks scales with key factors such as training data size, model complexity, and training time, often following power-law behaviors over multiple orders of magnitude. Despite their empirical observation, the theoretical understanding of these scaling laws remains limited. In this work, we employ techniques from statistical mechanics to analyze one-pass stochastic gradient descent within a student-teacher framework, where both the student and teacher are two-layer neural networks. Our study primarily focuses on the generalization error and its behavior in response to data covariance matrices that exhibit power-law spectra. For linear activation functions, we derive analytical expressions for the generalization error, exploring different learning regimes and identifying conditions under which power-law scaling emerges. Additionally, we extend our analysis to non-linear activation functions in the feature learning regime, investigating how power-law spectra in the data covariance matrix impact learning dynamics. Importantly, we find that the length of the symmetric plateau depends on the number of distinct eigenvalues of the data covariance matrix and the number of hidden units, demonstrating how these plateaus behave under various configurations. In addition, our results reveal a transition from exponential to power-law convergence in the specialized phase when the data covariance matrix possesses a power-law spectrum. This work contributes to the theoretical understanding of neural scaling laws and provides insights into optimizing learning performance in practical scenarios involving complex data structures.
arxiv情報
著者 | Roman Worschech,Bernd Rosenow |
発行日 | 2024-10-11 17:21:42+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google