Analytic theory of dropout regularization

要約

ドロップアウトは、過剰適合を緩和するために人工ニューラルネットワークのトレーニングに広く使用されている正則化手法です。
より堅牢な表現を促進するために、トレーニング中にネットワークのサブセットを動的に非アクティブ化することで構成されています。
その広範な採用にもかかわらず、ドロップアウトの確率はしばしばヒューリスティックに選択され、その成功の理論的説明はまばらなままです。
ここでは、オンラインの確率的勾配降下で訓練された2層ニューラルネットワークのドロップアウトを分析的に研究します。
高次元の制限では、トレーニング中のネットワークの進化を完全に特徴付ける一連の通常の微分方程式を導き出し、ドロップアウトの効果をキャプチャします。
一般化エラーと短い、中間、および長いトレーニング時間での最適なドロップアウト確率を説明する多くの正確な結果を取得します。
私たちの分析は、ドロップアウトが隠されたノード間の有害な相関を減らし、ラベルノイズの影響を軽減し、データのノイズのレベルとともに最適なドロップアウト確率が増加することを示しています。
私たちの結果は、広範な数値シミュレーションによって検証されています。

要約(オリジナル)

Dropout is a regularization technique widely used in training artificial neural networks to mitigate overfitting. It consists of dynamically deactivating subsets of the network during training to promote more robust representations. Despite its widespread adoption, dropout probabilities are often selected heuristically, and theoretical explanations of its success remain sparse. Here, we analytically study dropout in two-layer neural networks trained with online stochastic gradient descent. In the high-dimensional limit, we derive a set of ordinary differential equations that fully characterize the evolution of the network during training and capture the effects of dropout. We obtain a number of exact results describing the generalization error and the optimal dropout probability at short, intermediate, and long training times. Our analysis shows that dropout reduces detrimental correlations between hidden nodes, mitigates the impact of label noise, and that the optimal dropout probability increases with the level of noise in the data. Our results are validated by extensive numerical simulations.

arxiv情報

著者 Francesco Mori,Francesca Mignacco
発行日 2025-05-12 17:45:02+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cond-mat.dis-nn, cond-mat.stat-mech, cs.LG, stat.ML パーマリンク