On the different regimes of Stochastic Gradient Descent

要約

最新の深層ネットワークは、確率的勾配降下法 (SGD) を使用してトレーニングされます。SGD の主なパラメーターは、各ステップまたはバッチ サイズ $B$ で考慮されるデータの数と、ステップ サイズまたは学習率 $\eta$ です。
小さい $B$ と大きい $\eta$ の場合、SGD はパラメーターの確率的展開に対応し、そのノイズ振幅は「温度」 $T\equiv \eta/B$ によって支配されます。
しかし、この記述は十分に大きなバッチ $B\geq B^*$ では破綻することが観察されており、温度が十分に低い場合には勾配降下 (GD) に単純化されます。
これらのクロスオーバーがどこで行われるかを理解することは、依然として中心的な課題です。
ここでは、教師と生徒のパーセプトロン分類モデルに関するこれらの質問を解決し、主要な予測がディープ ネットワークにも依然として適用されることを経験的に示します。
具体的には、$\textit{(i)}$ 温度によって支配されるノイズ支配の SGD、$\textit{(ii)} という 3 つの動的相を分離する $B$-$\eta$ 平面の相図を取得します。
$ は大規模なファーストステップが支配する SGD と $\textit{(iii)}$ GD です。
これらの異なる段階は、汎化誤差の異なる領域にも対応します。
注目すべきことに、私たちの分析では、レジーム $\textit{(i)}$ と $\textit{(ii)}$ を分離するバッチ サイズ $B^*$ が、指数関数を使用してトレーニング セットのサイズ $P$ に比例することが明らかになりました。
それは分類問題の難しさを特徴づけます。

要約(オリジナル)

Modern deep networks are trained with stochastic gradient descent (SGD) whose key parameters are the number of data considered at each step or batch size $B$, and the step size or learning rate $\eta$. For small $B$ and large $\eta$, SGD corresponds to a stochastic evolution of the parameters, whose noise amplitude is governed by the `temperature’ $T\equiv \eta/B$. Yet this description is observed to break down for sufficiently large batches $B\geq B^*$, or simplifies to gradient descent (GD) when the temperature is sufficiently small. Understanding where these cross-overs take place remains a central challenge. Here we resolve these questions for a teacher-student perceptron classification model, and show empirically that our key predictions still apply to deep networks. Specifically, we obtain a phase diagram in the $B$-$\eta$ plane that separates three dynamical phases: $\textit{(i)}$ a noise-dominated SGD governed by temperature, $\textit{(ii)}$ a large-first-step-dominated SGD and $\textit{(iii)}$ GD. These different phases also corresponds to different regimes of generalization error. Remarkably, our analysis reveals that the batch size $B^*$ separating regimes $\textit{(i)}$ and $\textit{(ii)}$ scale with the size $P$ of the training set, with an exponent that characterizes the hardness of the classification problem.

arxiv情報

著者 Antonio Sclocchi,Matthieu Wyart
発行日 2023-09-19 15:23:07+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cond-mat.dis-nn, cs.LG, stat.ML パーマリンク