Provable Advantage of Curriculum Learning on Parity Targets with Mixed Inputs

要約

実験結果によると、カリキュラム学習、つまり、より複雑な例の前に簡単な例を提示することで、学習の効率が向上することが示されています。
最近のいくつかの理論的結果では、サンプリング分布の変更がニューラル ネットワークのパリティ学習に役立つことも示されており、正式な結果は大きな学習率と 1 ステップの引数についてのみ得られます。
ここでは、共通のサンプル分布における標準 (制限付き) 学習率によるトレーニング ステップ数の分離結果を示します。データ分布が疎入力と密入力の混合である場合、2 層 ReLU ニューラルが存在する領域が存在します。
最初に疎なサンプルを使用するカリキュラムのノイジー GD (または SGD) アルゴリズムによってトレーニングされたネットワークは、十分に大きな次数のパリティを学習できますが、順序付けされていないサンプルに対してノイジー GD によってトレーニングされた、おそらくより大きな幅または深さの完全に接続されたニューラル ネットワークは学習できません。
追加の手順なしで。
また、理論的結果の特定の領域を超えて定性的分離を裏付ける実験結果も提供します。

要約(オリジナル)

Experimental results have shown that curriculum learning, i.e., presenting simpler examples before more complex ones, can improve the efficiency of learning. Some recent theoretical results also showed that changing the sampling distribution can help neural networks learn parities, with formal results only for large learning rates and one-step arguments. Here we show a separation result in the number of training steps with standard (bounded) learning rates on a common sample distribution: if the data distribution is a mixture of sparse and dense inputs, there exists a regime in which a 2-layer ReLU neural network trained by a curriculum noisy-GD (or SGD) algorithm that uses sparse examples first, can learn parities of sufficiently large degree, while any fully connected neural network of possibly larger width or depth trained by noisy-GD on the unordered samples cannot learn without additional steps. We also provide experimental results supporting the qualitative separation beyond the specific regime of the theoretical results.

arxiv情報

著者 Emmanuel Abbe,Elisabetta Cornacchia,Aryo Lotfi
発行日 2023-06-29 13:14:42+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, stat.ML パーマリンク