Grokfast: Accelerated Grokking by Amplifying Slow Gradients

要約

機械学習におけるグロッキングと呼ばれる不可解なアーティファクトの 1 つは、トレーニング データに対するほぼ完璧な過剰適合の後、10 回の反復で遅延汎化が達成されることです。
機械学習の専門家に代わって長い遅延自体に焦点を当て、グロッキング現象の下でモデルの一般化を加速することが私たちの目標です。
トレーニング反復にわたるパラメーターの一連の勾配を時間の経過に伴うランダム信号とみなすことにより、勾配降下法の下でパラメーターの軌跡を 2 つの成分、つまり、急速に変化する過学習をもたらす成分と、ゆっくりと変化する一般化成分にスペクトル的に分解できます。
誘導成分。
この分析により、勾配のゆっくりと変化する成分を増幅するわずか数行のコードで、グロッキング現象を $\times 50$ 以上加速することができます。
実験では、私たちのアルゴリズムが画像、言語、グラフを含むさまざまなタスクに適用され、突然一般化されるこの独特の成果物を実際に利用できることが示されました。
私たちのコードは \url{https://github.com/ironjr/grokfast} で入手できます。

要約(オリジナル)

One puzzling artifact in machine learning dubbed grokking is where delayed generalization is achieved tenfolds of iterations after near perfect overfitting to the training data. Focusing on the long delay itself on behalf of machine learning practitioners, our goal is to accelerate generalization of a model under grokking phenomenon. By regarding a series of gradients of a parameter over training iterations as a random signal over time, we can spectrally decompose the parameter trajectories under gradient descent into two components: the fast-varying, overfitting-yielding component and the slow-varying, generalization-inducing component. This analysis allows us to accelerate the grokking phenomenon more than $\times 50$ with only a few lines of code that amplifies the slow-varying components of gradients. The experiments show that our algorithm applies to diverse tasks involving images, languages, and graphs, enabling practical availability of this peculiar artifact of sudden generalization. Our code is available at \url{https://github.com/ironjr/grokfast}.

arxiv情報

著者 Jaerin Lee,Bong Gyun Kang,Kihoon Kim,Kyoung Mu Lee
発行日 2024-05-30 16:35:30+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG パーマリンク