On the Training Instability of Shuffling SGD with Batch Normalization

要約

SGD がバッチ正規化とどのように相互作用し、発散などの望ましくないトレーニングダイナミクスを示す可能性があるかを明らかにします。
より正確には、SGD の 2 つの広く使用されている変種であるシングル シャッフル (SS) とランダム リシャッフル (RR) が、バッチ正規化の存在下で驚くほど異なる相互作用をどのように行うかを研究します。RR は、SS よりもはるかに安定したトレーニング損失の進化につながります。
具体的な例として、バッチ正規化を伴う線形ネットワークを使用した回帰の場合、SS と RR が勾配降下法から「歪んで」離れた個別の大域最適値に収束することを証明します。
その後、分類のために、SS と RR のトレーニングの発散が発生する可能性がある条件と発生しない条件を特徴付けます。
我々は、SS が分類の回帰と発散において歪んだ最適値をもたらすのに対し、RR は歪みと発散の両方を回避する方法を示す明示的な構築を提示します。
現実的な設定で経験的に確認することで結果を検証し、バッチ正規化で使用される SS と RR の分離が実際に関連していると結論付けます。

要約(オリジナル)

We uncover how SGD interacts with batch normalization and can exhibit undesirable training dynamics such as divergence. More precisely, we study how Single Shuffle (SS) and Random Reshuffle (RR) — two widely used variants of SGD — interact surprisingly differently in the presence of batch normalization: RR leads to much more stable evolution of training loss than SS. As a concrete example, for regression using a linear network with batch normalization, we prove that SS and RR converge to distinct global optima that are ‘distorted’ away from gradient descent. Thereafter, for classification we characterize conditions under which training divergence for SS and RR can, and cannot occur. We present explicit constructions to show how SS leads to distorted optima in regression and divergence for classification, whereas RR avoids both distortion and divergence. We validate our results by confirming them empirically in realistic settings, and conclude that the separation between SS and RR used with batch normalization is relevant in practice.

arxiv情報

著者 David X. Wu,Chulhee Yun,Suvrit Sra
発行日 2023-06-16 16:40:45+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, math.OC パーマリンク