Rigorous dynamical mean field theory for stochastic gradient descent methods

要約

経験的なリスク最小化を使用してガウス データの観察から推定器 (M 推定器、浅いニューラル ネットワークなど) を学習し、一次勾配ベースの手法の正確な高次元漸近線に対する閉形式方程式を証明します。

これには、確率的勾配降下法 (SGD) や Nesterov 加速などの広く使用されているアルゴリズムが含まれます。
得られた方程式は、勾配流に適用した場合の統計物理学からの動的平均場理論 (DMFT) 方程式の離散化から得られる方程式と一致します。
私たちの証明方法を使用すると、効果的なダイナミクスでメモリ カーネルがどのように構築されるかを明示的に説明することができ、分離不可能な更新関数を含めることができるため、非恒等共分散行列を持つデータセットが可能になります。
最後に、一般的な広範なバッチサイズと一定の学習率を使用した SGD の方程式の数値実装を提供します。

要約(オリジナル)

We prove closed-form equations for the exact high-dimensional asymptotics of a family of first order gradient-based methods, learning an estimator (e.g. M-estimator, shallow neural network, …) from observations on Gaussian data with empirical risk minimization. This includes widely used algorithms such as stochastic gradient descent (SGD) or Nesterov acceleration. The obtained equations match those resulting from the discretization of dynamical mean-field theory (DMFT) equations from statistical physics when applied to gradient flow. Our proof method allows us to give an explicit description of how memory kernels build up in the effective dynamics, and to include non-separable update functions, allowing datasets with non-identity covariance matrices. Finally, we provide numerical implementations of the equations for SGD with generic extensive batch-size and with constant learning rates.

arxiv情報

著者 Cedric Gerbelot,Emanuele Troiani,Francesca Mignacco,Florent Krzakala,Lenka Zdeborova
発行日 2023-08-15 12:23:03+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.IT, cs.LG, math-ph, math.IT, math.MP, stat.ML パーマリンク