要約
優れた表現力を備えた最新のディープ ラーニング モデルは、トレーニング データをオーバーフィットするようにトレーニングできますが、それでも十分に一般化できます。
この現象は良性オーバーフィッティングと呼ばれます。
最近、いくつかの研究が、ニューラル ネットワークにおける無害なオーバーフィッティングを理論的に理解しようと試みました。
ただし、これらの作業は、スムーズな活性化関数を備えたニューラル ネットワークまたはニューラル タンジェント カーネル体制に限定されています。
ReLUニューラルネットワークで良性のオーバーフィッティングがいつどのように発生するかは、未解決の問題のままです。
この作業では、ラベル反転ノイズを含む 2 層 ReLU 畳み込みニューラル ネットワークを学習するためのアルゴリズム依存のリスク境界を確立することにより、この質問に答えようとします。
穏やかな条件下では、勾配降下法によってトレーニングされたニューラル ネットワークは、ほぼゼロのトレーニング損失とベイズ最適テスト リスクを達成できることを示します。
私たちの結果はまた、テストリスクの観点から、データ分布のさまざまな条件下で、無害なオーバーフィッティングと有害なオーバーフィッティングの間の急激な移行を明らかにしています。
合成データに関する実験は、私たちの理論を裏付けています。
要約(オリジナル)
Modern deep learning models with great expressive power can be trained to overfit the training data but still generalize well. This phenomenon is referred to as benign overfitting. Recently, a few studies have attempted to theoretically understand benign overfitting in neural networks. However, these works are either limited to neural networks with smooth activation functions or to the neural tangent kernel regime. How and when benign overfitting can occur in ReLU neural networks remains an open problem. In this work, we seek to answer this question by establishing algorithm-dependent risk bounds for learning two-layer ReLU convolutional neural networks with label-flipping noise. We show that, under mild conditions, the neural network trained by gradient descent can achieve near-zero training loss and Bayes optimal test risk. Our result also reveals a sharp transition between benign and harmful overfitting under different conditions on data distribution in terms of test risk. Experiments on synthetic data back up our theory.
arxiv情報
著者 | Yiwen Kou,Zixiang Chen,Yuanzhou Chen,Quanquan Gu |
発行日 | 2023-03-07 18:59:38+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google