On the Convergence Analysis of Muon

要約

ニューラルネットワークのパラメーターの大部分は、自然にマトリックスとして表されます。
ただし、最も一般的に使用されるオプティマイザーは、これらのマトリックスパラメーターを最適化中に平らなベクトルとして扱い、固有の構造特性を見下ろす可能性があります。
最近、Muonと呼ばれるオプティマイザーが提案されており、マトリックス構造パラメーターを最適化するように特別に設計されています。
広範な経験的証拠は、ムーンがニューラルネットワークをトレーニングする際に従来のオプティマイザーを大幅に上回ることができることを示しています。
それにもかかわらず、Muonの収束行動とその優れたパフォーマンスの背後にある理由の理論的理解は、限られたままです。
この作業では、Muonの包括的な収束率分析と勾配降下(GD)との比較を提示します。
さらに、MuonがGDを上回ることができる条件をさらに特徴付けます。
私たちの理論的結果は、ムーンがヘッセ行列の低ランクとおおよそのブロックワイズの対角線構造の恩恵を受けることができることを明らかにしています – 実際のニューラルネットワークトレーニングで広く観察された現象。
実験結果は、理論的な発見をサポートし、裏付けています。

要約(オリジナル)

The majority of parameters in neural networks are naturally represented as matrices. However, most commonly used optimizers treat these matrix parameters as flattened vectors during optimization, potentially overlooking their inherent structural properties. Recently, an optimizer called Muon has been proposed, specifically designed to optimize matrix-structured parameters. Extensive empirical evidence shows that Muon can significantly outperform traditional optimizers when training neural networks. Nonetheless, the theoretical understanding of Muon’s convergence behavior and the reasons behind its superior performance remain limited. In this work, we present a comprehensive convergence rate analysis of Muon and its comparison with Gradient Descent (GD). We further characterize the conditions under which Muon can outperform GD. Our theoretical results reveal that Muon can benefit from the low-rank and approximate blockwise diagonal structure of Hessian matrices — phenomena widely observed in practical neural network training. Our experimental results support and corroborate the theoretical findings.

arxiv情報

著者 Wei Shen,Ruichuan Huang,Minhui Huang,Cong Shen,Jiawei Zhang
発行日 2025-05-29 17:58:01+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.IT, cs.LG, math.IT, math.OC, stat.ML パーマリンク