Generalization on the Unseen, Logic Reasoning and Degree Curriculum

要約

この論文では、分布外一般化の強力なケースである、目に見えない (GOTU) 設定での一般化に焦点を当てて、論理 (ブール) 関数の学習について考察します。
これは、特定の推論タスク (算術/論理など) におけるデータの豊富な組み合わせの性質により、代表的なデータのサンプリングが困難になり、GOTU での学習が成功すると、「外挿」または「推論」学習者の最初のビネットが得られるという事実によって動機付けられています。
私たちは、(S)GD によってトレーニングされたさまざまなネットワーク アーキテクチャが GOTU の下でどのように動作するかを研究し、スパース関数と、トランスフォーマーのインスタンス、ランダム特徴モデル、線形ネットワークを含むネットワーク モデルのクラスについて、最小次数が必要であるという理論的および実験的証拠を提供します。
補間器は目に見えないものから学習されます。
より具体的には、これは、高次の基底要素上で最小のフーリエ質量を持つトレーニング データの補間器を意味します。
これらの発見は 2 つの意味をもたらします。(1) ブール関数の長さ一般化問題に対する説明を提供します (例: Anil et al. 2022)。
(2) Degree-Curriculum と呼ばれるカリキュラム学習アルゴリズムを導入します。これは、サポートを増加させることで単項式をより効率的に学習します。
最後に、最小次数バイアスが依然として発生または消失する可能性がある他のモデルまたは非スパース領域への拡張と、望ましくない場合に潜在的に修正できる方法について説明します。

要約(オリジナル)

This paper considers the learning of logical (Boolean) functions with a focus on the generalization on the unseen (GOTU) setting, a strong case of out-of-distribution generalization. This is motivated by the fact that the rich combinatorial nature of data in certain reasoning tasks (e.g., arithmetic/logic) makes representative data sampling challenging, and learning successfully under GOTU gives a first vignette of an ‘extrapolating’ or ‘reasoning’ learner. We study how different network architectures trained by (S)GD perform under GOTU and provide both theoretical and experimental evidence that for sparse functions and a class of network models including instances of Transformers, random features models, and linear networks, a min-degree-interpolator is learned on the unseen. More specifically, this means an interpolator of the training data that has minimal Fourier mass on the higher degree basis elements. These findings lead to two implications: (1) we provide an explanation to the length generalization problem for Boolean functions (e.g., Anil et al. 2022); (2) we introduce a curriculum learning algorithm called Degree-Curriculum that learns monomials more efficiently by incrementing supports. Finally, we discuss extensions to other models or non-sparse regimes where the min-degree bias may still occur or fade, as well as how it can be potentially corrected when undesirable.

arxiv情報

著者 Emmanuel Abbe,Samy Bengio,Aryo Lotfi,Kevin Rizk
発行日 2024-11-20 17:16:01+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, stat.ML パーマリンク