要約
Grokkingは、一般化の遅延化の興味深い現象であり、ニューラルネットワークは最初は完全な精度でトレーニングデータを記憶していますが、一般化が不十分であり、その後継続的なトレーニングで一般化ソリューションに移行します。
この遅れた一般化を説明するために、体重の規範やスパース性などの要因が提案されていますが、ネットワーク構造の影響は未定です。
この作業では、グローキング現象を宝くじのチケット仮説にリンクして、内部ネットワーク構造の影響を調査します。
一般化段階で得られた宝くじチケットを利用することで(Grokkedチケットと呼ばれる)、複数のモジュラー算術操作、多項式回帰、スパースパリティ、MNIST分類など、さまざまなタスク全体の遅延一般化が大幅に削減されることを実証します。
制御された実験を通じて、一般化の遅延の緩和は、体重の規範の減少やスパースの増加だけでなく、むしろ優れたサブネットワークの発見によるものであることを示します。
さらに、Grokkedチケットは、周期的な重量パターン、平均パス長の増加、クラスタリング係数の減少などの有益なグラフプロパティを示し、一般化の改善と一致する急速な構造変化を受けることがわかります。
さらに、Edge-Popupアルゴリズムのような剪定技術は、重みを変更せずにこれらの効果的な構造を識別することができ、それにより、ネットワークを一般化するものに記憶するネットワークを変換することができます。
これらの結果は、構造探査がグラッキングを理解する上で極めて重要な役割を果たしているという新しい洞察を強調しています。
実装コードは、このリンクhttps://github.com/gouki510/grokking-ticketsからアクセスできます。
要約(オリジナル)
Grokking is an intriguing phenomenon of delayed generalization, where neural networks initially memorize training data with perfect accuracy but exhibit poor generalization, subsequently transitioning to a generalizing solution with continued training. While factors such as weight norms and sparsity have been proposed to explain this delayed generalization, the influence of network structure remains underexplored. In this work, we link the grokking phenomenon to the lottery ticket hypothesis to investigate the impact of internal network structures. We demonstrate that utilizing lottery tickets obtained during the generalizing phase (termed grokked tickets) significantly reduces delayed generalization across various tasks, including multiple modular arithmetic operations, polynomial regression, sparse parity, and MNIST classification. Through controlled experiments, we show that the mitigation of delayed generalization is not due solely to reduced weight norms or increased sparsity, but rather to the discovery of good subnetworks. Furthermore, we find that grokked tickets exhibit periodic weight patterns, beneficial graph properties such as increased average path lengths and reduced clustering coefficients, and undergo rapid structural changes that coincide with improvements in generalization. Additionally, pruning techniques like the edge-popup algorithm can identify these effective structures without modifying the weights, thereby transforming memorizing networks into generalizing ones. These results underscore the novel insight that structural exploration plays a pivotal role in understanding grokking. The implementation code can be accessed via this link: https://github.com/gouki510/Grokking-Tickets.
arxiv情報
著者 | Gouki Minegishi,Yusuke Iwasawa,Yutaka Matsuo |
発行日 | 2025-05-09 15:21:11+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google