MoMo: Momentum Models for Adaptive Learning Rates

要約

我々は、どのような運動量法でも使用できる新しい適応的な学習率を提示する。この新しい学習率を紹介するために、我々はMoMoとMoMo-Adamを開発した。SGDMとAdamは、我々の新しい適応的な学習率と一緒に運動量付きSGD(SGDM)である。MoMo法は、モデルベースの確率最適化によって動機付けられ、各反復でサンプリングされたバッチ損失と勾配の運動量推定値を用いて、損失関数のモデルを構築するものである。また、我々のモデルは、切り捨てを利用することで、損失関数の既知の下界を利用することができる。実際、ほとんどの損失は下限がゼロである。そして、各反復でこのモデルを近似的に最小化し、次のステップを計算する。下界が不明な損失については、我々のモデルで使用する下界の新しい推定値をその場で開発する。数値実験により、MNIST、CIFAR10、CIFAR100、Imagenet32、CriteoデータセットのDLRM、翻訳タスクIWSLT14の変換器モデルの画像分類器のトレーニングにおいて、我々のMoMo法が、SGMDMやAdamよりも精度とハイパーパラメータの調整に対する頑健性の点で向上することを示した。

要約(オリジナル)

We present new adaptive learning rates that can be used with any momentum method. To showcase our new learning rates we develop MoMo and MoMo-Adam, which are SGD with momentum (SGDM) and Adam together with our new adaptive learning rates. Our MoMo methods are motivated through model-based stochastic optimization, wherein we use momentum estimates of the batch losses and gradients sampled at each iteration to build a model of the loss function. Our model also makes use of any known lower bound of the loss function by using truncation. Indeed most losses are bounded below by zero. We then approximately minimize this model at each iteration to compute the next step. For losses with unknown lower bounds, we develop new on-the-fly estimates of the lower bound that we use in our model. Numerical experiments show that our MoMo methods improve over SGDM and Adam in terms of accuracy and robustness to hyperparameter tuning for training image classifiers on MNIST, CIFAR10, CIFAR100, Imagenet32, DLRM on the Criteo dataset, and a transformer model on the translation task IWSLT14.

arxiv情報

著者 Fabian Schaipp,Ruben Ohana,Michael Eickenberg,Aaron Defazio,Robert M. Gower
発行日 2023-05-12 16:25:57+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: 15B52, 62L20, 65Y20, 68W20, 68W40, 74S60, 90C06, 90C53, cs.LG, G.1.6, math.OC パーマリンク