Emergence in non-neural models: grokking modular arithmetic via average gradient outer product

要約

モジュラー算術タスクを解決するようにトレーニングされたニューラル ネットワークでは、グロッキングが発生します。これは、モデルがトレーニング プロセスで 100% のトレーニング精度に達した後、テストの精度が向上し始める現象です。
これは、モデルの能力が相転移を通じて急激に発現する「創発」の例として取り上げられることが多いです。
この研究では、グロッキング現象がニューラル ネットワークや勾配降下ベースの最適化に特有のものではないことを示します。
具体的には、この現象は、一般的な機械学習モデルでタスク固有の特徴学習を可能にする平均勾配外積 (AGOP) を使用する反復アルゴリズムである再帰特徴マシン (RFM) でモジュラー演算を学習するときに発生することを示します。
カーネル マシンと組み合わせて使用​​すると、RFM を反復することにより、ランダムでゼロに近いテスト精度から完璧なテスト精度に高速で移行できます。
この遷移は、同じゼロであるトレーニング損失からも、最初の反復では一定のままであるテスト損失からも予測できません。
代わりに、私たちが示すように、遷移は特徴学習によって完全に決定されます。RFM はブロック循環特徴を徐々に学習してモジュラー算術を解決します。
RFM の結果と並行して、剰余算術を解くニューラル ネットワークがブロック循環機能も学習することを示します。
さらに、RFM がそのようなブロック循環機能を使用してフーリエ乗算アルゴリズムを実装するという理論的証拠を示します。以前の研究では、ニューラル ネットワークがこれらのタスクについて学習する一般化ソリューションとして想定されていました。
私たちの結果は、創発は純粋にタスク関連の特徴の学習から生じる可能性があり、ニューラル アーキテクチャや勾配降下ベースの最適化手法に固有のものではないことを示しています。
さらに、私たちの研究は、AGOP がニューラル ネットワークにおける特徴学習の重要なメカニズムであるというさらなる証拠を提供します。

要約(オリジナル)

Neural networks trained to solve modular arithmetic tasks exhibit grokking, a phenomenon where the test accuracy starts improving long after the model achieves 100% training accuracy in the training process. It is often taken as an example of ‘emergence’, where model ability manifests sharply through a phase transition. In this work, we show that the phenomenon of grokking is not specific to neural networks nor to gradient descent-based optimization. Specifically, we show that this phenomenon occurs when learning modular arithmetic with Recursive Feature Machines (RFM), an iterative algorithm that uses the Average Gradient Outer Product (AGOP) to enable task-specific feature learning with general machine learning models. When used in conjunction with kernel machines, iterating RFM results in a fast transition from random, near zero, test accuracy to perfect test accuracy. This transition cannot be predicted from the training loss, which is identically zero, nor from the test loss, which remains constant in initial iterations. Instead, as we show, the transition is completely determined by feature learning: RFM gradually learns block-circulant features to solve modular arithmetic. Paralleling the results for RFM, we show that neural networks that solve modular arithmetic also learn block-circulant features. Furthermore, we present theoretical evidence that RFM uses such block-circulant features to implement the Fourier Multiplication Algorithm, which prior work posited as the generalizing solution neural networks learn on these tasks. Our results demonstrate that emergence can result purely from learning task-relevant features and is not specific to neural architectures nor gradient descent-based optimization methods. Furthermore, our work provides more evidence for AGOP as a key mechanism for feature learning in neural networks.

arxiv情報

著者 Neil Mallinar,Daniel Beaglehole,Libin Zhu,Adityanarayanan Radhakrishnan,Parthe Pandit,Mikhail Belkin
発行日 2024-07-29 17:28:58+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, stat.ML パーマリンク