要約
深層学習最適化における最近の進歩は、従来の運動量メカニズムを修正するSchedule-Free optimizers、AdEMAMix、MARS、Lionなどの新しいアルゴリズムを導入している。別の研究では、雑音が支配する領域における確率的勾配降下(SGD)の理論的加速が、運動量係数を現在の勾配の重みから切り離すことで達成されている。本論文では、この2つの研究の間の明確なつながりを確立する。150m言語モデリングタスクの予備実験により、理論的知見を実証する。その結果、確率的勾配降下の加速版に最も近いAdEMAMixが優れた性能を示すことがわかった。これらの知見に基づき、バッチサイズが大きくても小さくてもAdEMAMixと同等の性能を維持しつつ、2つの異なる運動量項の必要性を排除した、Simplified-AdEMAMixと呼ばれるAdEMAMixの改良を紹介する。Simplified-AdEMAMixのコードはhttps://github.com/DepenM/Simplified-AdEMAMix/。
要約(オリジナル)
Recent advancements in deep learning optimization have introduced new algorithms, such as Schedule-Free optimizers, AdEMAMix, MARS and Lion which modify traditional momentum mechanisms. In a separate line of work, theoretical acceleration of stochastic gradient descent (SGD) in noise-dominated regime has been achieved by decoupling the momentum coefficient from the current gradient’s weight. In this paper, we establish explicit connections between these two lines of work. We substantiate our theoretical findings with preliminary experiments on a 150m language modeling task. We find that AdEMAMix, which most closely resembles accelerated versions of stochastic gradient descent, exhibits superior performance. Building on these insights, we introduce a modification to AdEMAMix, termed Simplified-AdEMAMix, which maintains the same performance as AdEMAMix across both large and small batch-size settings while eliminating the need for two different momentum terms. The code for Simplified-AdEMAMix is available on the repository: https://github.com/DepenM/Simplified-AdEMAMix/.
arxiv情報
著者 | Depen Morwani,Nikhil Vyas,Hanlin Zhang,Sham Kakade |
発行日 | 2025-02-04 15:55:35+00:00 |
arxivサイト | arxiv_id(pdf) |