A Hessian-Aware Stochastic Differential Equation for Modelling SGD

要約

確率的勾配降下法 (SGD) の連続時間近似は、静止点からのエスケープ動作を研究するための重要なツールです。
ただし、既存の確率微分方程式 (SDE) モデルは、単純な 2 次目的であっても、これらの動作を完全に捉えることができません。
新しい確率的後方誤差解析フレームワークに基づいて構築され、目的関数のヘシアン情報をドリフト項と拡散項の両方に組み込んだ SDE であるヘシアン対応確率修正方程式 (HA-SME) を導き出します。
私たちの分析では、HA-SME が文献にある既存の SDE モデルの次数最良近似誤差保証と一致し、同時に対物レンズの平滑度パラメーターへの依存性を大幅に低減していることがわかりました。
さらに、二次目標では、穏やかな条件下で、HA-SME が分布の意味で SGD ダイナミクスを正確に回復する最初の SDE モデルであることが証明されています。
したがって、静止点付近の局所的な景観が二次関数で近似できれば、HA-SME は SGD の局所的な逃避挙動を正確に予測できることが期待されます。

要約(オリジナル)

Continuous-time approximation of Stochastic Gradient Descent (SGD) is a crucial tool to study its escaping behaviors from stationary points. However, existing stochastic differential equation (SDE) models fail to fully capture these behaviors, even for simple quadratic objectives. Built on a novel stochastic backward error analysis framework, we derive the Hessian-Aware Stochastic Modified Equation (HA-SME), an SDE that incorporates Hessian information of the objective function into both its drift and diffusion terms. Our analysis shows that HA-SME matches the order-best approximation error guarantee among existing SDE models in the literature, while achieving a significantly reduced dependence on the smoothness parameter of the objective. Further, for quadratic objectives, under mild conditions, HA-SME is proved to be the first SDE model that recovers exactly the SGD dynamics in the distributional sense. Consequently, when the local landscape near a stationary point can be approximated by quadratics, HA-SME is expected to accurately predict the local escaping behaviors of SGD.

arxiv情報

著者 Xiang Li,Zebang Shen,Liang Zhang,Niao He
発行日 2024-05-28 17:11:34+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, math.OC, stat.ML パーマリンク