ELRA: Exponential learning rate adaption gradient descent optimization method

要約

我々は、新しい高速 (指数関数的レート適応)、ab initio (ハイパーパラメーターフリー) 勾配ベースのオプティマイザー アルゴリズムを提案します。
この方法の主なアイデアは、主に直交する隣接する勾配を目指して、状況認識によって学習率 $\alpha$ を適応させることです。
この方法は成功率が高く、収束率も速く、手作業で調整されたパラメーターに依存しないため、より汎用性が高くなります。
これは、任意の次元 n の問題に適用でき、問題の次元に応じて (O(n) 次数で) 線形にのみスケールされます。
凸型および非凸型の連続ランドスケープを最適化し、ある種のグラデーションを提供します。
Ada ファミリ (AdaGrad、AdaMax、AdaDelta、Adam など) とは対照的に、このメソッドは回転不変です。つまり、最適化パスとパフォーマンスは座標の選択に依存しません。
印象的なパフォーマンスは、最先端のオプティマイザーに対する MNIST ベンチマーク データセットの広範な実験によって実証されています。
私たちは、この新しいクラスのオプティマイザーを、その中心となるアイデアである Exponential Learning Rate Adaption (ELRA) にちなんで名付けました。
これを、わずかに異なるコントロールを備えた 2 つのバリアント c2min と p2min で示します。
著者らは、ELRA が勾配降下最適化のまったく新しい研究の方向性を切り開くことになると強く信じています。

要約(オリジナル)

We present a novel, fast (exponential rate adaption), ab initio (hyper-parameter-free) gradient based optimizer algorithm. The main idea of the method is to adapt the learning rate $\alpha$ by situational awareness, mainly striving for orthogonal neighboring gradients. The method has a high success and fast convergence rate and does not rely on hand-tuned parameters giving it greater universality. It can be applied to problems of any dimensions n and scales only linearly (of order O(n)) with the dimension of the problem. It optimizes convex and non-convex continuous landscapes providing some kind of gradient. In contrast to the Ada-family (AdaGrad, AdaMax, AdaDelta, Adam, etc.) the method is rotation invariant: optimization path and performance are independent of coordinate choices. The impressive performance is demonstrated by extensive experiments on the MNIST benchmark data-set against state-of-the-art optimizers. We name this new class of optimizers after its core idea Exponential Learning Rate Adaption – ELRA. We present it in two variants c2min and p2min with slightly different control. The authors strongly believe that ELRA will open a completely new research direction for gradient descent optimize.

arxiv情報

著者 Alexander Kleinsorge,Stefan Kupper,Alexander Fauck,Felix Rothe
発行日 2023-09-12 14:36:13+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, G.1.6, math.OC パーマリンク