Omnigrok: Grokking Beyond Algorithmic Data

要約

グロッキングは、アルゴリズムのデータセットで一般化がトレーニング データのオーバーフィッティングのかなり後に発生する異常な現象であり、とらえどころのないままです。
私たちは、ニューラル ネットワークの損失状況を分析し、トレーニングとテストの損失の間のミスマッチをグロッキングの原因として特定することにより、グロッキングを理解することを目指しています。
これを「LU メカニズム」と呼びます。これは、トレーニングとテストの損失 (モデルの重みのノルムに対する) が通常、それぞれ「L」と「U」に似ているためです。
この単純なメカニズムは、データサイズ依存、重み減衰依存、表現の出現など、グロッキングの多くの側面をうまく説明できます。直感的な図に導かれて、画像、言語、分子を含むタスクでグロッキングを誘発することができます。
逆に言えば、アルゴリズム データセットのグロッキングを排除できます。
私たちは、アルゴリズムのデータセットに対するグロッキングの劇的な性質は、表現学習に起因すると考えています。

要約(オリジナル)

Grokking, the unusual phenomenon for algorithmic datasets where generalization happens long after overfitting the training data, has remained elusive. We aim to understand grokking by analyzing the loss landscapes of neural networks, identifying the mismatch between training and test losses as the cause for grokking. We refer to this as the ‘LU mechanism’ because training and test losses (against model weight norm) typically resemble ‘L’ and ‘U’, respectively. This simple mechanism can nicely explain many aspects of grokking: data size dependence, weight decay dependence, the emergence of representations, etc. Guided by the intuitive picture, we are able to induce grokking on tasks involving images, language and molecules. In the reverse direction, we are able to eliminate grokking for algorithmic datasets. We attribute the dramatic nature of grokking for algorithmic datasets to representation learning.

arxiv情報

著者 Ziming Liu,Eric J. Michaud,Max Tegmark
発行日 2023-03-23 13:42:27+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, physics.data-an, stat.ME, stat.ML パーマリンク