要約
Lion (Evolved Sign Momentum) は、プログラム検索を通じて発見された新しいオプティマイザーであり、大規模な AI モデルのトレーニングにおいて有望な結果を示しています。
AdamW と同等または有利なパフォーマンスを示しますが、メモリ効率が高くなります。
ランダム検索プログラムの結果から予想できるように、Lion には、符号付き運動量、分離重み減衰、ポラック、ネステロフ運動量など、いくつかの既存のアルゴリズムの要素が組み込まれていますが、理論に基づいたオプティマイザーの既存のカテゴリには適合しません。
したがって、Lion は幅広いタスクに対して汎用オプティマイザとして適切に機能するように見えますが、その理論的根拠は依然として不確かです。
この理論的明確さの欠如により、ライオンの有効性をさらに強化および拡大する機会が制限されます。
この作品はライオンの謎を解き明かすことを目的としています。
連続時間解析と離散時間解析の両方に基づいて、Lion が限界制約 $\|x\|_\infty \ を強制しながら一般損失関数 $f(x)$ を最小化するための理論的に新規で原則に基づいたアプローチであることを証明します。
leq 1/\lambda$。
Lion は、分離された重み減衰を組み込むことでこれを実現します。$\lambda$ は重み減衰係数を表します。
私たちの分析は、Lion アップデート用の新しい Lyapunov 関数の開発によって可能になりました。
これは、Lion-$\kappa$ アルゴリズムのより広範なファミリーに適用されます。ここでは、Lion の $\text{sign}(\cdot)$ 演算子が凸関数 $\kappa$ の部分勾配に置き換えられ、次の解が得られます。
$\min_x f(x) + \kappa^*(x)$ の一般的な複合最適化問題。
私たちの調査結果は、Lion のダイナミクスに関する貴重な洞察を提供し、Lion 関連のアルゴリズムのさらなる改善と拡張への道を開きます。
要約(オリジナル)
Lion (Evolved Sign Momentum), a new optimizer discovered through program search, has shown promising results in training large AI models. It performs comparably or favorably to AdamW but with greater memory efficiency. As we can expect from the results of a random search program, Lion incorporates elements from several existing algorithms, including signed momentum, decoupled weight decay, Polak, and Nesterov momentum, but does not fit into any existing category of theoretically grounded optimizers. Thus, even though Lion appears to perform well as a general-purpose optimizer for a wide range of tasks, its theoretical basis remains uncertain. This lack of theoretical clarity limits opportunities to further enhance and expand Lion’s efficacy. This work aims to demystify Lion. Based on both continuous-time and discrete-time analysis, we demonstrate that Lion is a theoretically novel and principled approach for minimizing a general loss function $f(x)$ while enforcing a bound constraint $\|x\|_\infty \leq 1/\lambda$. Lion achieves this through the incorporation of decoupled weight decay, where $\lambda$ represents the weight decay coefficient. Our analysis is made possible by the development of a new Lyapunov function for the Lion updates. It applies to a broader family of Lion-$\kappa$ algorithms, where the $\text{sign}(\cdot)$ operator in Lion is replaced by the subgradient of a convex function $\kappa$, leading to the solution of a general composite optimization problem of $\min_x f(x) + \kappa^*(x)$. Our findings provide valuable insights into the dynamics of Lion and pave the way for further improvements and extensions of Lion-related algorithms.
arxiv情報
著者 | Lizhang Chen,Bo Liu,Kaizhao Liang,Qiang Liu |
発行日 | 2023-10-12 17:16:37+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google