From Tempered to Benign Overfitting in ReLU Neural Networks

要約

過剰パラメータ化されたニューラル ネットワーク (NN) は、ノイズの多いデータに完全に適合するようにトレーニングされた場合でも、適切に一般化することが観察されています。
この現象は、内挿予測子が最適に近いパフォーマンスを達成する「良性の過学習」に関する大量の研究の動機となりました。
最近、NN の動作は、多くの場合「調整された過学習」として説明する方が適切であることが推測され、経験的に観察されました。この場合、パフォーマンスは最適ではないものの、自明でもなく、ノイズ レベルの関数として低下します。
ただし、非線形 NN に対するこの主張の理論的正当化はこれまでのところ不足しています。
この研究では、これらの補完的な見解の橋渡しを目的としたいくつかの結果を提供します。
2 層 ReLU NN を使用した単純な分類設定を研究し、さまざまな仮定の下で、過学習のタイプが 1 次元データの極端な場合の緩和された状態から高次元では良性へと移行することを証明します。
したがって、入力次元がこの設定における過学習の種類に重要な役割を果たしていることが示され、中間次元についても経験的に検証されています。
全体として、私たちの結果は、一方では次元、サンプルサイズ、アーキテクチャ、トレーニングアルゴリズムの間の複雑な関係を明らかにし、他方では結果として生じる過学習の種類を明らかにしています。

要約(オリジナル)

Overparameterized neural networks (NNs) are observed to generalize well even when trained to perfectly fit noisy data. This phenomenon motivated a large body of work on ‘benign overfitting’, where interpolating predictors achieve near-optimal performance. Recently, it was conjectured and empirically observed that the behavior of NNs is often better described as ‘tempered overfitting’, where the performance is non-optimal yet also non-trivial, and degrades as a function of the noise level. However, a theoretical justification of this claim for non-linear NNs has been lacking so far. In this work, we provide several results that aim at bridging these complementing views. We study a simple classification setting with 2-layer ReLU NNs, and prove that under various assumptions, the type of overfitting transitions from tempered in the extreme case of one-dimensional data, to benign in high dimensions. Thus, we show that the input dimension has a crucial role on the type of overfitting in this setting, which we also validate empirically for intermediate dimensions. Overall, our results shed light on the intricate connections between the dimension, sample size, architecture and training algorithm on the one hand, and the type of resulting overfitting on the other hand.

arxiv情報

著者 Guy Kornowski,Gilad Yehudai,Ohad Shamir
発行日 2023-10-25 15:20:46+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, cs.NE, stat.ML パーマリンク