SGD Finds then Tunes Features in Two-Layer Neural Networks with near-Optimal Sample Complexity: A Case Study in the XOR problem

要約

この研究では、二次グラウンドトゥルース関数によって分離されたデータを含む 2 層ニューラル ネットワーク上のミニバッチ確率的勾配降下法 (SGD) の最適化プロセスを検討します。
二次「XOR」関数 $y = -x_ix_j$ でラベル付けされた $d$ 次元のブールハイパーキューブから抽出されたデータを使用して、$d を使用して母集団誤差 $o(1)$ を学習できることを証明します。
\:\text{polylog}(d)$ サンプル。
私たちの結果は、ロジスティック損失に関する標準ミニバッチ SGD を介して ReLU 活性化を使用して 2 層ニューラル ネットワークの両方の層を同時にトレーニングすることを考慮しています。
私たちの知る限り、この研究は、標準的なトレーニングを使用して標準的なニューラル ネットワーク上の等方性データの XOR 関数を効率的に学習するために $\tilde{O}(d)$ のサンプル複雑さを与えた最初の研究です。
私たちの主な手法は、ネットワークが 2 つのフェーズで進化することを示しています。1 つはネットワークが小さく、多くのニューロンが特徴を見つけるために独立して進化する $\textit{signal-finding}$ フェーズ、もう 1 つは $\textit{signal-heavy}
$ フェーズ。SGD は機能を維持し、バランスをとります。
層の同時トレーニングを利用して、ニューロンのごく一部だけが特徴を学習するだけで十分であることを示します。これらのニューロンは、第 2 層の重みの同時増加によって増幅されるからです。

要約(オリジナル)

In this work, we consider the optimization process of minibatch stochastic gradient descent (SGD) on a 2-layer neural network with data separated by a quadratic ground truth function. We prove that with data drawn from the $d$-dimensional Boolean hypercube labeled by the quadratic “XOR” function $y = -x_ix_j$, it is possible to train to a population error $o(1)$ with $d \:\text{polylog}(d)$ samples. Our result considers simultaneously training both layers of the two-layer-neural network with ReLU activations via standard minibatch SGD on the logistic loss. To our knowledge, this work is the first to give a sample complexity of $\tilde{O}(d)$ for efficiently learning the XOR function on isotropic data on a standard neural network with standard training. Our main technique is showing that the network evolves in two phases: a $\textit{signal-finding}$ phase where the network is small and many of the neurons evolve independently to find features, and a $\textit{signal-heavy}$ phase, where SGD maintains and balances the features. We leverage the simultaneous training of the layers to show that it is sufficient for only a small fraction of the neurons to learn features, since those neurons will be amplified by the simultaneous growth of their second layer weights.

arxiv情報

著者 Margalit Glasgow
発行日 2023-10-02 14:21:45+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, stat.ML パーマリンク