要約
ニューラル ネットワークは、モジュラー算術タスクのサブセットを容易に学習しますが、残りについては一般化できません。
この制限は、アーキテクチャとトレーニング戦略の選択によっても変わりません。
一方、モジュラー加算タスクを一般化する多層パーセプトロン (MLP) ネットワークの重みの解析ソリューションが文献で知られています。
この研究では、(i) 解析ソリューションのクラスを拡張して、多くの項を含むモジュラー乗算とモジュラー加算を含めます。
さらに、これらのデータセットでトレーニングされた実際のネットワークが一般化 (グロッキング) に応じて同様のソリューションを学習することを示します。
(ii) これらの「専門家」ソリューションを組み合わせて、任意のモジュラー多項式を一般化するネットワークを構築します。
(iii) モジュラー多項式をニューラル ネットワークのトレーニングによって学習可能と学習不可能に分類すると仮定します。
そして私たちの主張を裏付ける実験的証拠を提供します。
要約(オリジナル)
Neural networks readily learn a subset of the modular arithmetic tasks, while failing to generalize on the rest. This limitation remains unmoved by the choice of architecture and training strategies. On the other hand, an analytical solution for the weights of Multi-layer Perceptron (MLP) networks that generalize on the modular addition task is known in the literature. In this work, we (i) extend the class of analytical solutions to include modular multiplication as well as modular addition with many terms. Additionally, we show that real networks trained on these datasets learn similar solutions upon generalization (grokking). (ii) We combine these ‘expert’ solutions to construct networks that generalize on arbitrary modular polynomials. (iii) We hypothesize a classification of modular polynomials into learnable and non-learnable via neural networks training; and provide experimental evidence supporting our claims.
arxiv情報
| 著者 | Darshil Doshi,Tianyu He,Aritra Das,Andrey Gromov |
| 発行日 | 2024-06-05 17:59:35+00:00 |
| arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google