Training shallow ReLU networks on noisy data using hinge loss: when do we overfit and is it benign?

要約

私たちは、バイナリ分類用のノイズを含むデータに対する勾配降下法とヒンジ損失を使用して訓練された 2 層 ReLU ネットワークにおける良性の過学習を研究します。
特に、ラベルの比較的小さな割合が破損または反転されている線形分離可能なデータを考慮します。
クリーン データのマージンで 3 つの異なるトレーニング結果をもたらす条件を特定します。1 つは損失ゼロが達成され、高い確率でテスト データが正しく分類される良性の過学習です。
オーバーフィッティング。損失ゼロは達成されますが、定数によって下限される確率でテスト データが誤分類されます。
非過学習では、破損したポイントではなくクリーンなポイントが損失ゼロを達成し、再び高い確率でテスト データが正しく分類されます。
私たちの分析は、トレーニング全体にわたるニューロンのダイナミクスの詳細な説明を提供し、2 つの異なるフェーズを明らかにします。第 1 フェーズでは、クリーン ポイントはほぼゼロ損失を達成します。第 2 フェーズでは、クリーン ポイントはゼロ損失の境界で振動しますが、破損ポイントはどちらかです。
損失がゼロに収束するか、最終的にはネットワークによってゼロになります。
これらの結果は、トレーニングのこれらのフェーズ全体でクリーンな更新と破損した更新の数を制限する組み合わせアプローチを使用して証明します。

要約(オリジナル)

We study benign overfitting in two-layer ReLU networks trained using gradient descent and hinge loss on noisy data for binary classification. In particular, we consider linearly separable data for which a relatively small proportion of labels are corrupted or flipped. We identify conditions on the margin of the clean data that give rise to three distinct training outcomes: benign overfitting, in which zero loss is achieved and with high probability test data is classified correctly; overfitting, in which zero loss is achieved but test data is misclassified with probability lower bounded by a constant; and non-overfitting, in which clean points, but not corrupt points, achieve zero loss and again with high probability test data is classified correctly. Our analysis provides a fine-grained description of the dynamics of neurons throughout training and reveals two distinct phases: in the first phase clean points achieve close to zero loss, in the second phase clean points oscillate on the boundary of zero loss while corrupt points either converge towards zero loss or are eventually zeroed by the network. We prove these results using a combinatorial approach that involves bounding the number of clean versus corrupt updates across these phases of training.

arxiv情報

著者 Erin George,Michael Murray,William Swartworth,Deanna Needell
発行日 2023-06-16 16:40:04+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG パーマリンク