Polygonal Unadjusted Langevin Algorithms: Creating stable and efficient adaptive algorithms for neural networks

要約

我々は、ディープラーニングモデルの微調整に現在使用されている一般的な適応的最適化器の既知の欠点の多くを克服する、ランジュバンベースのアルゴリズムの新しいクラスを提示する。その基礎となる理論は、単調係数を持つ確率微分方程式(SDE)に対するオイラーの多角形近似の最近の進歩に依存している。その結果、飼いならされたアルゴリズムの安定性特性を受け継ぎつつ、ニューラルネットワークにおける勾配の消失など、他の既知の問題にも対処している。特に、TH$varepsilon$O POULA(あるいは、単にTheoPouLa)と名付けたこの新しいクラスのアルゴリズムの収束特性について、非漸近解析と完全な理論的保証を提供する。最後に、様々な種類のディープラーニングモデルを用いたいくつかの実験を示し、多くの一般的な適応最適化アルゴリズムよりもTheoPouLaが優れた性能を持つことを示す。

要約(オリジナル)

We present a new class of Langevin based algorithms, which overcomes many of the known shortcomings of popular adaptive optimizers that are currently used for the fine tuning of deep learning models. Its underpinning theory relies on recent advances of Euler’s polygonal approximations for stochastic differential equations (SDEs) with monotone coefficients. As a result, it inherits the stability properties of tamed algorithms, while it addresses other known issues, e.g. vanishing gradients in neural networks. In particular, we provide a nonasymptotic analysis and full theoretical guarantees for the convergence properties of an algorithm of this novel class, which we named TH$\varepsilon$O POULA (or, simply, TheoPouLa). Finally, several experiments are presented with different types of deep learning models, which show the superior performance of TheoPouLa over many popular adaptive optimization algorithms.

arxiv情報

著者 Dong-Young Lim,Sotirios Sabanis
発行日 2024-03-02 12:55:56+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.LG, math.OC, math.PR, stat.ML パーマリンク