要約
一般的なトレーニングの損失に小さな重量減衰を伴う勾配流のダイナミクスを研究します$ f:\ mathbb {r}^d \ to \ mathbb {r} $。
軽度の規則性の仮定の下で、不規則な勾配流の収束を仮定して、重量減衰$ \ lambda $の軌跡が$ \ lambda \から0 $として2相の動作を示すことを示します。
最初の高速フェーズでは、軌道は正規のない勾配の流れに従い、$ f $の臨界点の多様体に収束します。
次に、注文$ 1/\ lambda $の時点で、軌道は遅いドリフトフェーズに入り、パラメーターの$ \ ell_2 $ -normを最小限に抑えるリーマン勾配の流れに従います。
この純粋に最適化ベースの現象は、深い学習で観察される\ textit {grokking}効果の自然な説明を提供します。ここでは、トレーニング損失は急速にゼロに達し、テスト損失は突然改善する前に長期間測定します。
この一般化ジャンプは、分析で説明されているように、体重減衰によって誘発されるゆっくりした規範の減少に起因すると主張しています。
このメカニズムは、いくつかの合成回帰タスクで経験的に検証します。
要約(オリジナル)
We study the dynamics of gradient flow with small weight decay on general training losses $F: \mathbb{R}^d \to \mathbb{R}$. Under mild regularity assumptions and assuming convergence of the unregularised gradient flow, we show that the trajectory with weight decay $\lambda$ exhibits a two-phase behaviour as $\lambda \to 0$. During the initial fast phase, the trajectory follows the unregularised gradient flow and converges to a manifold of critical points of $F$. Then, at time of order $1/\lambda$, the trajectory enters a slow drift phase and follows a Riemannian gradient flow minimising the $\ell_2$-norm of the parameters. This purely optimisation-based phenomenon offers a natural explanation for the \textit{grokking} effect observed in deep learning, where the training loss rapidly reaches zero while the test loss plateaus for an extended period before suddenly improving. We argue that this generalisation jump can be attributed to the slow norm reduction induced by weight decay, as explained by our analysis. We validate this mechanism empirically on several synthetic regression tasks.
arxiv情報
著者 | Etienne Boursier,Scott Pesme,Radu-Alexandru Dragomir |
発行日 | 2025-05-26 16:12:45+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google