要約
この論文では、分布外一般化の強力なケースである、目に見えない (GOTU) 設定での一般化に焦点を当てて、論理 (ブール) 関数の学習について考察します。
これは、特定の推論タスク (算術/論理など) におけるデータの豊富な組み合わせの性質により、代表的なデータのサンプリングが困難になり、GOTU での学習が成功すると、「外挿」または「推論」学習者の最初のビネットが得られるという事実によって動機付けられています。
次に、(S)GD によってトレーニングされたさまざまなネットワーク アーキテクチャが GOTU の下でどのように動作するかを研究し、Transformer のインスタンス、ランダム特徴モデル、対角線形ネットワークを含むネットワーク モデルのクラスに対して、min-degree-interpolator が必要であるという理論的および実験的証拠の両方を提供します。
目に見えないものから学ばれます。
また、より大きな学習率または平均場ネットワークを持つ他のインスタンスが漏洩最小次数解に到達するという証拠も提供します。
これらの発見は 2 つの意味をもたらします: (1) 長さの一般化問題に対する説明を提供します (例: Anil et al. 2022)。
(2) Degree-Curriculum と呼ばれるカリキュラム学習アルゴリズムを導入します。これは、サポートを増加させることで単項式をより効率的に学習します。
要約(オリジナル)
This paper considers the learning of logical (Boolean) functions with focus on the generalization on the unseen (GOTU) setting, a strong case of out-of-distribution generalization. This is motivated by the fact that the rich combinatorial nature of data in certain reasoning tasks (e.g., arithmetic/logic) makes representative data sampling challenging, and learning successfully under GOTU gives a first vignette of an ‘extrapolating’ or ‘reasoning’ learner. We then study how different network architectures trained by (S)GD perform under GOTU and provide both theoretical and experimental evidence that for a class of network models including instances of Transformers, random features models, and diagonal linear networks, a min-degree-interpolator is learned on the unseen. We also provide evidence that other instances with larger learning rates or mean-field networks reach leaky min-degree solutions. These findings lead to two implications: (1) we provide an explanation to the length generalization problem (e.g., Anil et al. 2022); (2) we introduce a curriculum learning algorithm called Degree-Curriculum that learns monomials more efficiently by incrementing supports.
arxiv情報
著者 | Emmanuel Abbe,Samy Bengio,Aryo Lotfi,Kevin Rizk |
発行日 | 2023-06-28 15:41:49+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google