Improving the Adaptive Moment Estimation (ADAM) stochastic optimizer through an Implicit-Explicit (IMEX) time-stepping approach

要約

Adam オプティマイザーは、ニューラル ネットワーク トレーニングの機械学習でよく使用され、非常に小さい学習率の制限における基礎となる常微分方程式 (ODE) に対応します。
この研究は、古典的な Adam アルゴリズムが、基礎となる ODE の一次陰的陽的 (IMEX) オイラー離散化であることを示しています。
時間離散化の観点を採用し、高次 IMEX 法を使用して ODE を解くことによって得られる Adam スキームの新しい拡張を提案します。
このアプローチに基づいて、いくつかの回帰および分類問題において古典的な Adam よりも優れたパフォーマンスを発揮するニューラル ネットワーク トレーニング用の新しい最適化アルゴリズムを導き出します。

要約(オリジナル)

The Adam optimizer, often used in Machine Learning for neural network training, corresponds to an underlying ordinary differential equation (ODE) in the limit of very small learning rates. This work shows that the classical Adam algorithm is a first order implicit-explicit (IMEX) Euler discretization of the underlying ODE. Employing the time discretization point of view, we propose new extensions of the Adam scheme obtained by using higher order IMEX methods to solve the ODE. Based on this approach, we derive a new optimization algorithm for neural network training that performs better than classical Adam on several regression and classification problems.

arxiv情報

著者 Abhinab Bhattacharjee,Andrey A. Popov,Arash Sarshar,Adrian Sandu
発行日 2024-03-20 16:08:27+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CE, cs.LG, cs.NA, math.NA パーマリンク