Gluon: Making Muon & Scion Great Again! (Bridging Theory and Practice of LMO-based Optimizers for LLMs)

要約

深い学習最適化の最近の開発により、$ \ sf muon $や$ \ sf scion $など、線形最小化Oracle(LMO)フレームワークに基づいた根本的に新しいアルゴリズムがもたらされました。
10年以上の$ \ sf Adam $の支配の後、これらのLMOベースの方法は実行可能な置換として浮上しており、メモリ効率の向上、ハイパーパラメーターの移動性の向上、LLMトレーニングを含む大規模タスクの優れた経験的パフォーマンスなど、いくつかの実用的な利点を提供します。
ただし、実際の使用と現在の理論的理解の間には大きなギャップが残っています。事前の分析(1)実際のこれらのオプティマイザーの層ごとのLMOアプリケーションを見落としており、(2)非現実的な滑らかさの仮定に依存して、実用的に小さな階段化に依存しています。
両方に対処するために、$ \ sf gluon $と呼ばれる新しいLMOベースの方法を提案し、以前の理論的に分析された方法を特別なケースとしてキャプチャし、ニューラルネットワークのレイヤーごとのジオメトリをキャプチャする新しい洗練された一般化されたスムーズさモデルを導入します。
以前の結果とは異なり、私たちの理論的な階段は、Pethick et al。
(2025)。
NanoGPTとCNNを使用した実験は、私たちの仮定が最適化の軌跡に沿って保持され、最終的に理論と実践のギャップを埋めることを確認します。

要約(オリジナル)

Recent developments in deep learning optimization have brought about radically new algorithms based on the Linear Minimization Oracle (LMO) framework, such as $\sf Muon$ and $\sf Scion$. After over a decade of $\sf Adam$’s dominance, these LMO-based methods are emerging as viable replacements, offering several practical advantages such as improved memory efficiency, better hyperparameter transferability, and most importantly, superior empirical performance on large-scale tasks, including LLM training. However, a significant gap remains between their practical use and our current theoretical understanding: prior analyses (1) overlook the layer-wise LMO application of these optimizers in practice, and (2) rely on an unrealistic smoothness assumption, leading to impractically small stepsizes. To address both, we propose a new LMO-based method called $\sf Gluon$, capturing prior theoretically analyzed methods as special cases, and introduce a new refined generalized smoothness model that captures the layer-wise geometry of neural networks, matches the layer-wise practical implementation of $\sf Muon$ and $\sf Scion$, and leads to convergence guarantees with strong practical predictive power. Unlike prior results, our theoretical stepsizes closely match the fine-tuned values reported by Pethick et al. (2025). Our experiments with NanoGPT and CNN confirm that our assumption holds along the optimization trajectory, ultimately closing the gap between theory and practice.

arxiv情報

著者 Artem Riabinin,Egor Shulgin,Kaja Gruntkowska,Peter Richtárik
発行日 2025-05-19 17:50:45+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, math.OC, stat.ML パーマリンク