Benign overfitting in leaky ReLU networks with moderate input dimension

要約

良性の過剰適合の問題では、モデルがノイズの多いトレーニング データに完全に適合し、それでも適切に一般化できるかどうかが問われます。
私たちは、バイナリ分類タスクでヒンジ損失を使用して訓練された 2 層リーキー ReLU ネットワークにおける良性の過学習を研究します。
互いに直交する部分空間上にある共通信号とランダムノイズ成分の和に分解できる入力データを考えます。
モデル パラメーターの信号対雑音比 (SNR) に関する条件を特徴付けて、良性と非良性、または有害な過適合を引き起こします。特に、SNR が高い場合は良性の過適合が発生し、逆に SNR が低い場合は良性の過適合が発生します。
有害な過学習が発生します。
我々は、良性および非良性の両方の過剰適合が近似的なマージン最大化特性によるものであると考え、勾配降下法 (GD) を使用してヒンジ損失について訓練された漏洩 ReLU ネットワークがこの特性を満たすことを示します。
以前の研究とは対照的に、トレーニング データにほぼ直交性の条件は必要ありません。特に、入力次元 $d$ とトレーニング サンプル サイズ $n$ については、以前の研究では、$d = \Omega(n^2) の場合に漸近的に最適な誤差が示されています。
\log n)$ の場合、最適値の $\epsilon$ 以内の誤差を取得するには、$d = \Omega\left(n \log \frac{1}{\epsilon}\right)$ だけが必要です。

要約(オリジナル)

The problem of benign overfitting asks whether it is possible for a model to perfectly fit noisy training data and still generalize well. We study benign overfitting in two-layer leaky ReLU networks trained with the hinge loss on a binary classification task. We consider input data which can be decomposed into the sum of a common signal and a random noise component, which lie on subspaces orthogonal to one another. We characterize conditions on the signal to noise ratio (SNR) of the model parameters giving rise to benign versus non-benign, or harmful, overfitting: in particular, if the SNR is high then benign overfitting occurs, conversely if the SNR is low then harmful overfitting occurs. We attribute both benign and non-benign overfitting to an approximate margin maximization property and show that leaky ReLU networks trained on hinge loss with Gradient Descent (GD) satisfy this property. In contrast to prior work we do not require near orthogonality conditions on the training data: notably, for input dimension $d$ and training sample size $n$, while prior work shows asymptotically optimal error when $d = \Omega(n^2 \log n)$, here we require only $d = \Omega\left(n \log \frac{1}{\epsilon}\right)$ to obtain error within $\epsilon$ of optimal.

arxiv情報

著者 Kedar Karhadkar,Erin George,Michael Murray,Guido Montúfar,Deanna Needell
発行日 2024-03-11 16:56:01+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, stat.ML パーマリンク