要約
ニューラルネットワーク(NN)の一般化性を理解することは、深い学習研究における中心的な問題です。
トレーニングパフォーマンスがほぼ完璧なレベルに達してからずっと後にNNSが突然一般化するグローキングの特別な現象は、NNSの一般化可能性の基礎となるメカニズムを調査するためのユニークなウィンドウを提供します。
ここでは、それを計算ガラス緩和としてフレーミングすることにより、グラッキングの解釈を提案します。パラメーターが自由度であり、列車の損失がシステムエネルギーである物理システムとしてNNを見ると、暗記プロセスは低温での非平衡ガラス状態への迅速な冷却に似ており、その後の一般化はより安定した緩和に似ています。
このマッピングにより、トレーニングの損失とテスト精度の関数として、NNSのボルツマンエントロピー(密度の状態)の景観をサンプリングすることができます。
算術タスク上の変圧器での実験は、グラッキングの記憶から一般化への移行にエントロピー障壁がないことを示唆しており、グローキングを一次相転移として定義する以前の理論に挑戦しています。
グローキングの下での高エントロピーの優位性を特定します。これは、エントロピーを一般化にリンクする以前の作業の拡張ですが、はるかに重要です。
Grokkingの遠い平等な性質から触発されて、王ランダウの分子動力学に基づいたおもちゃオプティマイザーの杖を開発します。
これは、Goldilocksゾーンへの体重の進化のみにグローキングを起因する理論に対する厳密に定義された反論を提供し、また、オプティマイザー設計の新しい潜在的な方法を示唆しています。
要約(オリジナル)
Understanding neural network’s (NN) generalizability remains a central question in deep learning research. The special phenomenon of grokking, where NNs abruptly generalize long after the training performance reaches a near-perfect level, offers a unique window to investigate the underlying mechanisms of NNs’ generalizability. Here we propose an interpretation for grokking by framing it as a computational glass relaxation: viewing NNs as a physical system where parameters are the degrees of freedom and train loss is the system energy, we find memorization process resembles a rapid cooling of liquid into non-equilibrium glassy state at low temperature and the later generalization is like a slow relaxation towards a more stable configuration. This mapping enables us to sample NNs’ Boltzmann entropy (states of density) landscape as a function of training loss and test accuracy. Our experiments in transformers on arithmetic tasks suggests that there is NO entropy barrier in the memorization-to-generalization transition of grokking, challenging previous theory that defines grokking as a first-order phase transition. We identify a high-entropy advantage under grokking, an extension of prior work linking entropy to generalizability but much more significant. Inspired by grokking’s far-from-equilibrium nature, we develop a toy optimizer WanD based on Wang-landau molecular dynamics, which can eliminate grokking without any constraints and find high-norm generalizing solutions. This provides strictly-defined counterexamples to theory attributing grokking solely to weight norm evolution towards the Goldilocks zone and also suggests new potential ways for optimizer design.
arxiv情報
著者 | Xiaotian Zhang,Yue Shang,Entao Yang,Ge Zhang |
発行日 | 2025-05-16 16:20:02+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google