Cautious Optimizers: Improving Training with One Line of Code

要約

ADAMWは、変圧器の事前化のデフォルトのオプティマイザーです。
長年にわたり、私たちのコミュニティは、制約された肯定的な結果のみを備えたより速く、より安定したオプティマイザーを検索していました。
この作業では、Pytorchのシングルライン変更を運動式ベースのオプティマイザーに提案します。
c-adamwおよびc-lion。
私たちの理論的結果は、この修正がアダムのハミルトニアン機能を維持し、リアプノフ分析の下で収束保証を破らないことを示しています。
さらに、オプティマイザーのまったく新しいファミリーが私たちの理論的洞察によって明らかにされています。
その中で、経験的実験のために最も単純なものを選択し、LlamaとMaeが最大1.47ドルの時間を前提としているだけでなく、LLM後のトレーニング後のタスクのより良い結果も示しています。
コードはhttps://github.com/kyleliang919/c-optimで入手できます。

要約(オリジナル)

AdamW has been the default optimizer for transformer pretraining. For many years, our community searched for faster and more stable optimizers with only constrained positive outcomes. In this work, we propose a single-line modification in Pytorch to any momentum-based optimizer, which we rename cautious optimizer, e.g. C-AdamW and C-Lion. Our theoretical result shows that this modification preserves Adam’s Hamiltonian function and it does not break the convergence guarantee under the Lyapunov analysis. In addition, a whole new family of optimizers is revealed by our theoretical insight. Among them, we pick the simplest one for empirical experiments, showing not only speed-up on Llama and MAE pretraining up to $1.47$ times, but also better results in LLM post-training tasks. Code is available at https://github.com/kyleliang919/C-Optim.

arxiv情報

著者 Kaizhao Liang,Lizhang Chen,Bo Liu,Qiang Liu
発行日 2025-01-31 13:56:58+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CV, cs.DM, cs.LG パーマリンク