Pareto Frontiers in Neural Feature Learning: Data, Compute, Width, and Luck

要約

この研究では、計算と統計のギャップが存在する場合の深層学習のための微妙なアルゴリズム設計の選択を調査します。
まず、オフラインのスパース パリティ学習、つまり多層パーセプトロンの勾配ベースのトレーニングに対する統計クエリの下限を許容する教師あり分類問題について検討します。
この下限は、マルチリソースのトレードオフ フロンティアとして解釈できます。つまり、学習が成功するのは、十分な知識がある (大規模なモデル)、知識がある (大規模なデータセット)、忍耐強い (トレーニングの反復回数が多い)、または幸運である (ランダムな推測が多い) 場合にのみ発生します。
この設定では、スパース初期化とネットワーク幅の増加によりサンプル効率が大幅に向上することが理論的および実験的に示されています。
ここで、幅は並列検索の役割を果たします。幅は、スパースな特徴をよりサンプル効率的に学習する「宝くじ」ニューロンを見つける確率を増幅します。
最後に、合成スパース パリティ タスクが、軸に合わせた特徴学習を必要とする実際の問題の代理として役立つことを示します。
広く、まばらに初期化された MLP モデルを使用することにより、表形式分類ベンチマークでサンプル効率が向上することを実証します。
これらのネットワークは、調整されたランダム フォレストよりもパフォーマンスが優れている場合があります。

要約(オリジナル)

This work investigates the nuanced algorithm design choices for deep learning in the presence of computational-statistical gaps. We begin by considering offline sparse parity learning, a supervised classification problem which admits a statistical query lower bound for gradient-based training of a multilayer perceptron. This lower bound can be interpreted as a multi-resource tradeoff frontier: successful learning can only occur if one is sufficiently rich (large model), knowledgeable (large dataset), patient (many training iterations), or lucky (many random guesses). We show, theoretically and experimentally, that sparse initialization and increasing network width yield significant improvements in sample efficiency in this setting. Here, width plays the role of parallel search: it amplifies the probability of finding ‘lottery ticket’ neurons, which learn sparse features more sample-efficiently. Finally, we show that the synthetic sparse parity task can be useful as a proxy for real problems requiring axis-aligned feature learning. We demonstrate improved sample efficiency on tabular classification benchmarks by using wide, sparsely-initialized MLP models; these networks sometimes outperform tuned random forests.

arxiv情報

著者 Benjamin L. Edelman,Surbhi Goel,Sham Kakade,Eran Malach,Cyril Zhang
発行日 2023-09-07 15:52:48+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, stat.ML パーマリンク