Explaining grokking through circuit efficiency

要約

ニューラル ネットワークの一般化における最も驚くべきパズルの 1 つは、グロッキングです。つまり、学習精度は完璧だが一般化が不十分なネットワークは、さらに学習すると、完全な一般化に移行します。
我々は、タスクが一般化解と暗記解を許容する場合にグロッキングが発生することを提案します。この場合、一般化解は学習に時間がかかりますが、より効率的であり、同じパラメータノルムでより大きなロジットを生成します。
私たちは、記憶回路はトレーニング データセットが大きくなると非効率になるが、一般化回路はそうではないという仮説を立て、記憶と一般化が同等に効率的になる重要なデータセット サイズが存在することを示唆しています。
私たちはグロッキングに関する 4 つの新しい予測を立てて確認し、私たちの説明を支持する重要な証拠を提供します。
最も印象的なのは、ネットワークが完璧なテスト精度から低いテスト精度に後退するアングロッキングと、ネットワークが完全ではなく部分的なテスト精度への一般化の遅れを示すセミグロッキングです。

要約(オリジナル)

One of the most surprising puzzles in neural network generalisation is grokking: a network with perfect training accuracy but poor generalisation will, upon further training, transition to perfect generalisation. We propose that grokking occurs when the task admits a generalising solution and a memorising solution, where the generalising solution is slower to learn but more efficient, producing larger logits with the same parameter norm. We hypothesise that memorising circuits become more inefficient with larger training datasets while generalising circuits do not, suggesting there is a critical dataset size at which memorisation and generalisation are equally efficient. We make and confirm four novel predictions about grokking, providing significant evidence in favour of our explanation. Most strikingly, we demonstrate two novel and surprising behaviours: ungrokking, in which a network regresses from perfect to low test accuracy, and semi-grokking, in which a network shows delayed generalisation to partial rather than perfect test accuracy.

arxiv情報

著者 Vikrant Varma,Rohin Shah,Zachary Kenton,János Kramár,Ramana Kumar
発行日 2023-09-05 17:00:24+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG パーマリンク