Grokking at the Edge of Numerical Stability

要約

グロッキング (長期にわたる過学習の後に起こる突然の一般化) は、深層学習に対する私たちの理解を揺るがす驚くべき現象です。
グロッキングの理解は大幅に進歩しましたが、一般化が遅れている理由と、グロッキングが正則化に依存している理由は依然として不明です。
この研究では、正則化がないと、グロッキング タスクがモデルを数値的安定性の限界まで押し上げ、ソフトマックス関数に浮動小数点誤差が導入されると主張します。これをソフトマックス コラプス (SC) と呼びます。
SC がグロッキングを防止し、SC を緩和することで正則化なしでグロッキングが可能になることを示します。
SC の根本原因を調査すると、過学習の点を超えて、勾配が単純損失最小化 (NLM) と呼ばれる方向と強く一致していることがわかりました。
勾配のこの成分はモデルの予測を変更しませんが、ロジットをスケーリングすることによって、通常は現在の方向に沿って重みをスケーリングすることによって損失を減らします。
このロジットのスケーリングは、グロッキングに特徴的な汎化の遅れを説明し、最終的には SC につながり、さらなる学習を停止することを示します。
私たちの仮説を検証するために、グロッキング タスクの課題に対処する 2 つの重要な貢献を紹介します。SC を防止し、正則化なしでグロッキングを可能にする新しい活性化関数である StableMax と、グロッキング タスクの迅速な一般化を促進するトレーニング アルゴリズムである $\perp$Grad です。
NLM を完全に阻止することによって。
これらの貢献は、グロッキングに関する新たな洞察を提供し、その一般化の遅れ、正則化への依存、および既存のグロッキング誘発手法の有効性を解明します。
この論文のコードは https://github.com/LucasPrietoAl/grokking-at-the-edge-of-numerical-stability で入手できます。

要約(オリジナル)

Grokking, the sudden generalization that occurs after prolonged overfitting, is a surprising phenomenon challenging our understanding of deep learning. Although significant progress has been made in understanding grokking, the reasons behind the delayed generalization and its dependence on regularization remain unclear. In this work, we argue that without regularization, grokking tasks push models to the edge of numerical stability, introducing floating point errors in the Softmax function, which we refer to as Softmax Collapse (SC). We demonstrate that SC prevents grokking and that mitigating SC enables grokking without regularization. Investigating the root cause of SC, we find that beyond the point of overfitting, the gradients strongly align with what we call the na\’ive loss minimization (NLM) direction. This component of the gradient does not alter the model’s predictions but decreases the loss by scaling the logits, typically by scaling the weights along their current direction. We show that this scaling of the logits explains the delay in generalization characteristic of grokking and eventually leads to SC, halting further learning. To validate our hypotheses, we introduce two key contributions that address the challenges in grokking tasks: StableMax, a new activation function that prevents SC and enables grokking without regularization, and $\perp$Grad, a training algorithm that promotes quick generalization in grokking tasks by preventing NLM altogether. These contributions provide new insights into grokking, elucidating its delayed generalization, reliance on regularization, and the effectiveness of existing grokking-inducing methods. Code for this paper is available at https://github.com/LucasPrietoAl/grokking-at-the-edge-of-numerical-stability.

arxiv情報

著者 Lucas Prieto,Melih Barsbey,Pedro A. M. Mediano,Tolga Birdal
発行日 2025-01-08 18:58:48+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG, stat.ML パーマリンク