Exact Mean Square Linear Stability Analysis for SGD

要約

損失の最小値付近における最適化手法の動的安定性は、最近大きな注目を集めています。
勾配降下法 (GD) の場合、安定した収束は、全体的に十分に平坦な最小値に対してのみ可能です。
ステップ サイズ、およびそれらはトレーニングされたモデルの好ましい特性と関連付けられています。
ただし、GD の安定性しきい値はよく知られていますが、これまでのところ、確率的 GD (SGD) の正確なしきい値を表す明示的な式は導出されていません。
本稿ではそのような閉形式式を導出する。
具体的には、二乗平均の意味で SGD の安定性に必要かつ十分なステップ サイズ $\eta$ に関する明示的な条件を提供します。
私たちの分析により、バッチ サイズ $B$ の正確な役割が明らかになりました。
特に、安定性のしきい値がバッチ サイズの単調非減少関数であることを示します。これは、バッチ サイズの削減は安定性を損なうだけであることを意味します。
さらに、SGD の安定性閾値は、各反復で完全なバッチ勾配ステップを実行するプロセスの安定性閾値と同等であることを示します。
$1-p$、および単一サンプル勾配ステップ w.p.
$p$、ここで $p \約 1/B $。
これは、中程度のバッチ サイズであっても、SGD の安定性しきい値が GD の安定性しきい値に非常に近いことを示しています。
最後に、安定性のための単純な必要条件を証明します。これはバッチ サイズに依存し、正確なしきい値よりも計算が簡単です。
MNIST データセットの実験を通じて理論的発見を実証します。

要約(オリジナル)

The dynamical stability of optimization methods at the vicinity of minima of the loss has recently attracted significant attention. For gradient descent (GD), stable convergence is possible only to minima that are sufficiently flat w.r.t. the step size, and those have been linked with favorable properties of the trained model. However, while the stability threshold of GD is well-known, to date, no explicit expression has been derived for the exact threshold of stochastic GD (SGD). In this paper, we derive such a closed-form expression. Specifically, we provide an explicit condition on the step size $\eta$ that is both necessary and sufficient for the stability of SGD in the mean square sense. Our analysis sheds light on the precise role of the batch size $B$. Particularly, we show that the stability threshold is a monotonically non-decreasing function of the batch size, which means that reducing the batch size can only hurt stability. Furthermore, we show that SGD’s stability threshold is equivalent to that of a process which takes in each iteration a full batch gradient step w.p. $1-p$, and a single sample gradient step w.p. $p$, where $p \approx 1/B $. This indicates that even with moderate batch sizes, SGD’s stability threshold is very close to that of GD’s. Finally, we prove simple necessary conditions for stability, which depend on the batch size, and are easier to compute than the precise threshold. We demonstrate our theoretical findings through experiments on the MNIST dataset.

arxiv情報

著者 Rotem Mulayoff,Tomer Michaeli
発行日 2023-06-13 15:29:23+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG パーマリンク