要約
このホワイトペーパーでは、モデルが遅延した一般化を示すグローキング現象に対するさまざまなオプティマイザーの影響を調査します。
最新の変圧器アーキテクチャを使用して、7つの数値タスク(主にモジュラー算術)で実験を実施しました。
実験的構成は、オプティマイザー(Muon vs. Adamw)とSoftMaxアクティベーション関数(標準SoftMax、StableMax、およびSparsemax)を体系的に変化させ、学習ダイナミクスに対するそれらの組み合わせ効果を評価しました。
私たちの経験的評価は、スペクトル規範の制約と2次情報の使用を特徴とするMuonオプティマイザーが、広く使用されているAdamWオプティマイザーと比較して、グラッキングの開始を大幅に加速することを明らかにしています。
具体的には、Muonはすべての構成にわたって平均グローキングエポックを153.09から102.89に減らし、統計的に有意な差を減らしました(T = 5.0175、P = 6.33E-08)。
これは、オプティマイザーの選択が、暗記から一般化への移行を促進する上で重要な役割を果たすことを示唆しています。
要約(オリジナル)
This paper investigates the impact of different optimizers on the grokking phenomenon, where models exhibit delayed generalization. We conducted experiments across seven numerical tasks (primarily modular arithmetic) using a modern Transformer architecture. The experimental configuration systematically varied the optimizer (Muon vs. AdamW) and the softmax activation function (standard softmax, stablemax, and sparsemax) to assess their combined effect on learning dynamics. Our empirical evaluation reveals that the Muon optimizer, characterized by its use of spectral norm constraints and second-order information, significantly accelerates the onset of grokking compared to the widely used AdamW optimizer. Specifically, Muon reduced the mean grokking epoch from 153.09 to 102.89 across all configurations, a statistically significant difference (t = 5.0175, p = 6.33e-08). This suggests that the optimizer choice plays a crucial role in facilitating the transition from memorization to generalization.
arxiv情報
著者 | Amund Tveit,Bjørn Remseth,Arve Skogvold |
発行日 | 2025-04-22 17:08:09+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google