Dichotomy of Early and Late Phase Implicit Biases Can Provably Induce Grokking

要約

Power らによる最近の研究。
(2022) は、算術タスクの学習における驚くべき「グロッキング」現象を強調しました。ニューラル ネットワークは最初にトレーニング セットを「記憶」し、その結果、トレーニングの精度は完璧ですが、テストの精度はランダムに近く、十分に長い時間トレーニングした後、突然完璧に移行します。
テストの精度。
この論文では、理論的設定におけるグロッキング現象を研究し、初期段階と後期段階の暗黙的なバイアスの二分法によってそれが引き起こされる可能性があることを示します。
具体的には、分類タスクと回帰タスクの両方で、初期化が大きく、重み減衰が小さい均質なニューラル ネットワークをトレーニングする場合、トレーニング プロセスがカーネル予測子に対応する解に長時間閉じ込められ、その後最小値に非常に急激に移行することを証明します。
-ノルム/最大マージン予測変数が発生し、テスト精度の劇的な変化につながります。

要約(オリジナル)

Recent work by Power et al. (2022) highlighted a surprising ‘grokking’ phenomenon in learning arithmetic tasks: a neural net first ‘memorizes’ the training set, resulting in perfect training accuracy but near-random test accuracy, and after training for sufficiently longer, it suddenly transitions to perfect test accuracy. This paper studies the grokking phenomenon in theoretical setups and shows that it can be induced by a dichotomy of early and late phase implicit biases. Specifically, when training homogeneous neural nets with large initialization and small weight decay on both classification and regression tasks, we prove that the training process gets trapped at a solution corresponding to a kernel predictor for a long time, and then a very sharp transition to min-norm/max-margin predictors occurs, leading to a dramatic change in test accuracy.

arxiv情報

著者 Kaifeng Lyu,Jikai Jin,Zhiyuan Li,Simon S. Du,Jason D. Lee,Wei Hu
発行日 2023-11-30 18:55:38+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG パーマリンク