A Tale of Two Circuits: Grokking as Competition of Sparse and Dense Subnetworks

要約

グロッキングとは、アルゴリズム タスクでトレーニングされたモデルが最初はオーバーフィットする現象ですが、大量の追加トレーニングの後、完全に一般化するためにフェーズ トランジションが発生します。
スパースパリティタスクでグロッキングを受けているネットワークの内部構造を経験的に研究し、グロッキングフェーズ遷移が、モデル予測を支配するスパースサブネットワークの出現に対応することを発見しました。
最適化レベルでは、このサブネットワークは、ニューロンの小さなサブセットが急速なノルム成長を遂げたときに発生するのに対し、ネットワーク内の他のニューロンはノルムでゆっくりと減衰することがわかります。
したがって、グロッキング相転移は、2つの大きく異なるサブネットワークの競合から生じると理解できることをお勧めします。1つは転移前に支配的で一般化が不十分な密なサブネットワークであり、その後は疎なサブネットワークです。

要約(オリジナル)

Grokking is a phenomenon where a model trained on an algorithmic task first overfits but, then, after a large amount of additional training, undergoes a phase transition to generalize perfectly. We empirically study the internal structure of networks undergoing grokking on the sparse parity task, and find that the grokking phase transition corresponds to the emergence of a sparse subnetwork that dominates model predictions. On an optimization level, we find that this subnetwork arises when a small subset of neurons undergoes rapid norm growth, whereas the other neurons in the network decay slowly in norm. Thus, we suggest that the grokking phase transition can be understood to emerge from competition of two largely distinct subnetworks: a dense one that dominates before the transition and generalizes poorly, and a sparse one that dominates afterwards.

arxiv情報

著者 William Merrill,Nikolaos Tsilivis,Aman Shukla
発行日 2023-03-21 14:17:29+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG パーマリンク