Loss Symmetry and Noise Equilibrium of Stochastic Gradient Descent

要約

ニューラルネットワークの損失関数には対称性が豊富に存在する。我々は、連続対称性の広範なサブクラスである指数対称性が損失関数に存在する場合の確率的勾配降下(SGD)の学習ダイナミクスを特徴付ける。勾配ノイズが釣り合わない場合、SGDは異なる方向からのノイズが釣り合う点に向かってモデルパラメータを移動させる傾向があることを立証する。ここで、損失関数の一定方向における特殊な固定点が、SGDの解の候補として浮上する。主な理論結果として、全てのパラメータ$theta$が、損失関数の障壁なしに、一意なノイズの釣り合った固定点$theta^*$に接続することを証明する。この理論は、勾配ノイズのバランスは、漸進的シャープニングやフラットニングのような関連現象の新しい代替メカニズムとして機能し、表現の正規化、行列分解、ウォームアップ、潜在表現の形成のような一般的な実用的問題の理解に応用できることを示唆する。

要約(オリジナル)

Symmetries exist abundantly in the loss function of neural networks. We characterize the learning dynamics of stochastic gradient descent (SGD) when exponential symmetries, a broad subclass of continuous symmetries, exist in the loss function. We establish that when gradient noises do not balance, SGD has the tendency to move the model parameters toward a point where noises from different directions are balanced. Here, a special type of fixed point in the constant directions of the loss function emerges as a candidate for solutions for SGD. As the main theoretical result, we prove that every parameter $\theta$ connects without loss function barrier to a unique noise-balanced fixed point $\theta^*$. The theory implies that the balancing of gradient noise can serve as a novel alternative mechanism for relevant phenomena such as progressive sharpening and flattening and can be applied to understand common practical problems such as representation normalization, matrix factorization, warmup, and formation of latent representations.

arxiv情報

著者 Liu Ziyin,Mingze Wang,Hongchao Li,Lei Wu
発行日 2024-06-03 17:49:41+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.LG, math.OC, stat.ML パーマリンク