要約
現代の深い学習アルゴリズムは、主な学習方法として勾配降下のバリエーションを使用します。
勾配降下は、最も単純な通常の微分方程式(ODE)ソルバーとして理解できます。
つまり、勾配流の微分方程式に適用されるオイラー法。
オイラー以来、多くのODEソルバーが考案されており、勾配の流れ方程式をより正確かつより安定に追随しています。
Runge-Kutta(RK)メソッドは、非常に強力な明示的で暗黙の高次ODEソルバーのファミリーを提供します。
ただし、これらの高次ソルバーは、これまでのところ、深い学習に幅広いアプリケーションを見つけていません。
この作業では、深い学習に適用された場合の高次RKソルバーのパフォーマンスを評価し、それらの制限を研究し、これらの欠点を克服する方法を提案します。
特に、前処理、適応学習率、勢いなどの最新のニューラルネットワークオプティマーの主要な成分を自然に組み込むことにより、パフォーマンスを改善する方法を探ります。
要約(オリジナル)
Modern deep learning algorithms use variations of gradient descent as their main learning methods. Gradient descent can be understood as the simplest Ordinary Differential Equation (ODE) solver; namely, the Euler method applied to the gradient flow differential equation. Since Euler, many ODE solvers have been devised that follow the gradient flow equation more precisely and more stably. Runge-Kutta (RK) methods provide a family of very powerful explicit and implicit high-order ODE solvers. However, these higher-order solvers have not found wide application in deep learning so far. In this work, we evaluate the performance of higher-order RK solvers when applied in deep learning, study their limitations, and propose ways to overcome these drawbacks. In particular, we explore how to improve their performance by naturally incorporating key ingredients of modern neural network optimizers such as preconditioning, adaptive learning rates, and momentum.
arxiv情報
著者 | Benoit Dherin,Michael Munn,Hanna Mazzawi,Michael Wunder,Sourabh Medapati,Javier Gonzalvo |
発行日 | 2025-05-19 17:34:32+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google