要約
最近、グロッキング(grokking)と呼ばれる興味深い現象が注目されているが、これはモデルが最初に学習データをオーバーフィットした後、長い時間を経て汎化が起こるというものである。我々は、ニューラルネットワークのロバストネスを通して、この一見奇妙な現象を理解しようと試みる。ロバスト性の観点から、ニューラルネットワークの一般的な$l_2$重みノルム(メトリック)が、実はグロッキングの十分条件であることを示す。これまでの観察に基づき、汎化プロセスを高速化するための摂動ベースの手法を提案する。さらに、モジュロ加算のデータセットに対する標準的な学習過程を調べ、例えば可換則のように、グロッキングの前に他の基本的な群演算をほとんど学習していないことを発見する。興味深いことに、提案手法を用いた場合の汎化の高速化は、モデルがテストデータセット上でグロッキングを行う際に必要な条件である可換則の学習によって説明できる。また、$l_2$ノルムがテストデータ上でのグロッキングと相関することを経験的に発見し、ロバスト性と情報理論に基づく新しい評価指標を提案し、我々の新しい評価指標がグロッキング現象とよく相関し、グロッキングの予測に利用できる可能性があることを見出した。
要約(オリジナル)
Recently, an interesting phenomenon called grokking has gained much attention, where generalization occurs long after the models have initially overfitted the training data. We try to understand this seemingly strange phenomenon through the robustness of the neural network. From a robustness perspective, we show that the popular $l_2$ weight norm (metric) of the neural network is actually a sufficient condition for grokking. Based on the previous observations, we propose perturbation-based methods to speed up the generalization process. In addition, we examine the standard training process on the modulo addition dataset and find that it hardly learns other basic group operations before grokking, for example, the commutative law. Interestingly, the speed-up of generalization when using our proposed method can be explained by learning the commutative law, a necessary condition when the model groks on the test dataset. We also empirically find that $l_2$ norm correlates with grokking on the test data not in a timely way, we propose new metrics based on robustness and information theory and find that our new metrics correlate well with the grokking phenomenon and may be used to predict grokking.
arxiv情報
著者 | Zhiquan Tan,Weiran Huang |
発行日 | 2024-02-02 14:03:32+00:00 |
arxivサイト | arxiv_id(pdf) |