Implicit regularization of dropout

要約

タイトル:ドロップアウトの暗黙の正則化

要約:

– 非常に人気のある正則化方法であるドロップアウトが、ニューラルネットワークのトレーニングにおいて良好な汎化ソリューションを達成するのにどのように役立つかを理解することは重要である。
– 本研究では、ドロップアウトの暗黙の正則化の理論的導出を行い、一連の実験によって検証する。
– さらに、暗黙の正則化の2つの含意を数値的に研究し、ドロップアウトが汎化を助ける理由を直感的に合理化する。
– 最初に、ドロップアウトでトレーニングされた孤立した方向性に対して、隠れ層の入力重みが凝結する傾向があることがわかる。凝縮は非線形学習プロセスの特徴であり、ネットワークをより複雑にしなくする。
– 次に、ドロップアウトでのトレーニングは、標準的な勾配降下法のトレーニングと比較して、フラットな最小値をもつニューラルネットワークを導くことが実験的にわかり、暗黙の正則化がフラットなソリューションを見つける鍵である。
– 本研究では、主に最後の隠れ層で使われるドロップアウトに焦点を当てているが、私たちの実験はニューラルネットワークのトレーニングに一般的に適用される。
– この研究は、確率的勾配降下法と比較してドロップアウトの独特の特徴を指摘し、ドロップアウトを完全に理解するための重要な基礎となる。

要約(オリジナル)

It is important to understand how dropout, a popular regularization method, aids in achieving a good generalization solution during neural network training. In this work, we present a theoretical derivation of an implicit regularization of dropout, which is validated by a series of experiments. Additionally, we numerically study two implications of the implicit regularization, which intuitively rationalizes why dropout helps generalization. Firstly, we find that input weights of hidden neurons tend to condense on isolated orientations trained with dropout. Condensation is a feature in the non-linear learning process, which makes the network less complex. Secondly, we experimentally find that the training with dropout leads to the neural network with a flatter minimum compared with standard gradient descent training, and the implicit regularization is the key to finding flat solutions. Although our theory mainly focuses on dropout used in the last hidden layer, our experiments apply to general dropout in training neural networks. This work points out a distinct characteristic of dropout compared with stochastic gradient descent and serves as an important basis for fully understanding dropout.

arxiv情報

著者 Zhongwang Zhang,Zhi-Qin John Xu
発行日 2023-04-10 08:26:42+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.LG パーマリンク