要約
Dropout (Hinton et al., 2012) に触発されたニューラル ネットワーク (NN) の確率的トレーニング アルゴリズムの収束と収束率を調査します。
NN のトレーニング中のオーバーフィッティングを回避する目的で、ドロップアウト アルゴリズムは、確率的勾配降下法の各反復中に、$\{0, 1 \}$ 値のエントリを持つ個別に描画されたランダム マトリックスを成分ごとに NN の重みマトリックスに掛けることで実際に構成されます。
(SGD)。
この論文では、微分可能で多項式に制限された活性化関数を持つ完全に接続された NN について、ドロップアウト アルゴリズムを使用するときに重みをコンパクトなセットに射影すると、NN の重みが一意の静止点に収束するという確率論的証明を提示します。
常微分方程式 (ODE) の射影系。
この一般的な収束保証の後、ドロップアウトの収束率を調査します。
最初に、ドロップアウト確率に明示的に依存するドロップアウト付きの SGD を使用して、滑らかな非凸関数の $\epsilon$-定常点を見つけるための一般的なサンプル複雑度境界を取得します。
第二に、任意の深さの樹枝状の形状と線形活性化関数を持つ NN のドロップアウト アルゴリズムの極限 ODE で、勾配降下 (GD) の収束速度の上限を取得します。
後者の境界は、Dropout や Dropconnect (Wan et al., 2013) などのアルゴリズムの場合、樹木の深さによって収束率が指数関数的に損なわれる可能性があることを示しています。
対照的に、ドロップアウト層がわずかしかないワイドNNでは、そのような依存性は実験的に観察されません。
また、この観察に対するヒューリスティックな議論も提供します。
私たちの結果は、その深さと比較したNNの幅の相対的なサイズに依存する収束率におけるドロップアウト確率の影響の規模の変化があることを示唆しています。
要約(オリジナル)
We investigate the convergence and convergence rate of stochastic training algorithms for Neural Networks (NNs) that have been inspired by Dropout (Hinton et al., 2012). With the goal of avoiding overfitting during training of NNs, dropout algorithms consist in practice of multiplying the weight matrices of a NN componentwise by independently drawn random matrices with $\{0, 1 \}$-valued entries during each iteration of Stochastic Gradient Descent (SGD). This paper presents a probability theoretical proof that for fully-connected NNs with differentiable, polynomially bounded activation functions, if we project the weights onto a compact set when using a dropout algorithm, then the weights of the NN converge to a unique stationary point of a projected system of Ordinary Differential Equations (ODEs). After this general convergence guarantee, we go on to investigate the convergence rate of dropout. Firstly, we obtain generic sample complexity bounds for finding $\epsilon$-stationary points of smooth nonconvex functions using SGD with dropout that explicitly depend on the dropout probability. Secondly, we obtain an upper bound on the rate of convergence of Gradient Descent (GD) on the limiting ODEs of dropout algorithms for NNs with the shape of arborescences of arbitrary depth and with linear activation functions. The latter bound shows that for an algorithm such as Dropout or Dropconnect (Wan et al., 2013), the convergence rate can be impaired exponentially by the depth of the arborescence. In contrast, we experimentally observe no such dependence for wide NNs with just a few dropout layers. We also provide a heuristic argument for this observation. Our results suggest that there is a change of scale of the effect of the dropout probability in the convergence rate that depends on the relative size of the width of the NN compared to its depth.
arxiv情報
著者 | Albert Senen-Cerda,Jaron Sanders |
発行日 | 2023-03-23 15:13:14+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google