On the Implicit Bias of Adam

要約

以前の文献では、勾配降下軌道を近似する常微分方程式 (ODE) を見つけるために後方誤差解析が使用されていました。
ODE に現れる項が損失勾配の 2 ノルムにペナルティを与えるため、有限ステップ サイズは解を暗黙的に正規化することがわかりました。
RMSProp と Adam における同様の暗黙的な正則化の存在は、ハイパーパラメータとトレーニング段階に依存しますが、異なる「ノルム」が関係していることを証明します。対応する ODE 項は、損失勾配の (摂動された) 1 ノルムにペナルティを与えるか、
逆に、その減少を妨げます(後者の場合が典型的です)。
また、数値実験も実施し、証明された事実が一般化にどのような影響を与えるかを議論します。

要約(オリジナル)

In previous literature, backward error analysis was used to find ordinary differential equations (ODEs) approximating the gradient descent trajectory. It was found that finite step sizes implicitly regularize solutions because terms appearing in the ODEs penalize the two-norm of the loss gradients. We prove that the existence of similar implicit regularization in RMSProp and Adam depends on their hyperparameters and the training stage, but with a different ‘norm’ involved: the corresponding ODE terms either penalize the (perturbed) one-norm of the loss gradients or, on the contrary, hinder its decrease (the latter case being typical). We also conduct numerical experiments and discuss how the proven facts can influence generalization.

arxiv情報

著者 Matias D. Cattaneo,Jason M. Klusowski,Boris Shigida
発行日 2023-10-01 22:18:35+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, math.OC, stat.CO, stat.ML パーマリンク