More is Better in Modern Machine Learning: when Infinite Overparameterization is Optimal and Overfitting is Obligatory

要約

巨大なニューラル ネットワークの時代では、経験的な進歩は、多ければ多いほど良いという哲学によって推進されてきました。
最近のディープ ラーニングの実践では、モデル サイズが大きくなり、データが増え、計算量が増える (その結果、トレーニング損失が少なくなる) とパフォーマンスが向上することが繰り返しわかっています。
この論文では、最後の層のみがトレーニングされた浅いネットワークと同等のモデルのクラスであるランダム特徴 (RF) 回帰において、これら 3 つの特性が維持されることを示すことで、これらの経験的観察に理論的な裏付けを与えます。
具体的には、まず、リッジ ペナルティが最適に調整されている場合、RF 回帰のテスト リスクは特徴の数とサンプルの数の両方に応じて単調に減少することを示します。
特に、これは、無限幅の RF アーキテクチャが有限幅の RF アーキテクチャよりも好ましいことを意味します。
次に、べき乗則固有構造によって特徴付けられる大きなクラスのタスクでは、トレーニング損失をほぼゼロにするトレーニングが必須であることを示します。最適に近いパフォーマンスは、トレーニング誤差がテスト誤差よりもはるかに小さい場合にのみ達成できます。
実世界のデータに基づいた理論を基にすると、畳み込みニューラル タンジェント カーネルを使用した標準的なコンピューター ビジョン タスクが明らかにこのクラスに分類されることが経験的にわかります。
まとめると、私たちの結果は、ランダム特徴モデルにおける過剰パラメータ化、過剰適合、およびより多くのデータの利点についてのシンプルでテスト可能なストーリーを伝えています。

要約(オリジナル)

In our era of enormous neural networks, empirical progress has been driven by the philosophy that more is better. Recent deep learning practice has found repeatedly that larger model size, more data, and more computation (resulting in lower training loss) improves performance. In this paper, we give theoretical backing to these empirical observations by showing that these three properties hold in random feature (RF) regression, a class of models equivalent to shallow networks with only the last layer trained. Concretely, we first show that the test risk of RF regression decreases monotonically with both the number of features and the number of samples, provided the ridge penalty is tuned optimally. In particular, this implies that infinite width RF architectures are preferable to those of any finite width. We then proceed to demonstrate that, for a large class of tasks characterized by powerlaw eigenstructure, training to near-zero training loss is obligatory: near-optimal performance can only be achieved when the training error is much smaller than the test error. Grounding our theory in real-world data, we find empirically that standard computer vision tasks with convolutional neural tangent kernels clearly fall into this class. Taken together, our results tell a simple, testable story of the benefits of overparameterization, overfitting, and more data in random feature models.

arxiv情報

著者 James B. Simon,Dhruva Karkada,Nikhil Ghosh,Mikhail Belkin
発行日 2023-11-24 18:27:41+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, stat.ML パーマリンク