要約
マトリックス勾配直交化による最適化は最近、深い神経ネットワークのトレーニングにおける印象的な結果を実証しました(Jordan et al。、2024; Liu et al。、2025)。
この論文では、このアプローチの理論的分析を提供します。
特に、直交化された勾配法は、信頼領域がマトリックススペクトルノルムの観点から定義されている1次信頼地域最適化法と見なすことができることを示しています。
この観察に動機付けられて、私たちは運動量を伴う確率的非ユークリッドの信頼地域勾配法を開発します。これは、Muon Optimizer(Jordan et al。、2024)を特別なケースとして回復し、運動量を伴う正規化されたSGDおよびsigngD(Cutkosky and Mehta、2020; Sun et al。、2023)を備えています。
さらに、提案されたアルゴリズムの最先端の収束結果は、任意の非ユークリッドの規範、制約された複合的な問題、および非概念、星のコンベックス、1次および2次のスムーズな機能を含むさまざまなシナリオで、提案されたアルゴリズムの結果を証明します。
最後に、我々の理論的調査結果は、Tuddenham et al。
(2022)および大規模な言語モデルのトレーニングにおける体重減衰の重要性。
要約(オリジナル)
Optimization with matrix gradient orthogonalization has recently demonstrated impressive results in the training of deep neural networks (Jordan et al., 2024; Liu et al., 2025). In this paper, we provide a theoretical analysis of this approach. In particular, we show that the orthogonalized gradient method can be seen as a first-order trust-region optimization method, where the trust-region is defined in terms of the matrix spectral norm. Motivated by this observation, we develop the stochastic non-Euclidean trust-region gradient method with momentum, which recovers the Muon optimizer (Jordan et al., 2024) as a special case, along with normalized SGD and signSGD with momentum (Cutkosky and Mehta, 2020; Sun et al., 2023). In addition, we prove state-of-the-art convergence results for the proposed algorithm in a range of scenarios, which involve arbitrary non-Euclidean norms, constrained and composite problems, and non-convex, star-convex, first- and second-order smooth functions. Finally, our theoretical findings provide an explanation for several practical observations, including the practical superiority of Muon compared to the Orthogonal-SGDM algorithm of Tuddenham et al. (2022) and the importance of weight decay in the training of large-scale language models.
arxiv情報
著者 | Dmitry Kovalev |
発行日 | 2025-04-08 16:47:42+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google