要約
グロッキングとは、機械学習モデルが過学習から長い時間が経過して一般化する現象で、主にアルゴリズム タスクで観察および研究されてきました。
この論文では、クロスエントロピー損失の下での分類にディープ ニューラル ネットワークを使用した、現実世界のデータセットのグロッキングについて調査します。
私たちは、重みの $L_2$ ノルムがグロッキングの主な原因であるという一般的な仮説に、グロッキングが重みのノルムの予想範囲外で発生する可能性があることを証明することで異議を唱えます。
グロッキングをより深く理解するために、アクティベーション スパース性、絶対重みエントロピー、および近似ローカル回路複雑さという 3 つの新しい進歩指標を導入します。
これらの測定値は概念的に一般化に関連しており、重み基準と比較して現実世界のデータセットにおけるグロッキングとの強い相関関係を示しています。
私たちの調査結果は、体重基準は通常、グロッキングと私たちの進歩の尺度に相関があるかもしれないが、原因ではなく、私たちが提案した尺度はグロッキングのダイナミクスをよりよく理解するのに役立つことを示唆しています。
要約(オリジナル)
Grokking, a phenomenon where machine learning models generalize long after overfitting, has been primarily observed and studied in algorithmic tasks. This paper explores grokking in real-world datasets using deep neural networks for classification under the cross-entropy loss. We challenge the prevalent hypothesis that the $L_2$ norm of weights is the primary cause of grokking by demonstrating that grokking can occur outside the expected range of weight norms. To better understand grokking, we introduce three new progress measures: activation sparsity, absolute weight entropy, and approximate local circuit complexity. These measures are conceptually related to generalization and demonstrate a stronger correlation with grokking in real-world datasets compared to weight norms. Our findings suggest that while weight norms might usually correlate with grokking and our progress measures, they are not causative, and our proposed measures provide a better understanding of the dynamics of grokking.
arxiv情報
著者 | Satvik Golechha |
発行日 | 2024-05-21 13:06:41+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google