要約
この論文では、小さな初期化を伴う勾配フローを使用してバイナリ分類用の 2 層 ReLU ネットワークをトレーニングする問題を研究します。
十分に分離された入力ベクトルを持つトレーニング データセットを検討します。同じラベルを持つ入力データのペアは正の相関関係にあり、異なるラベルを持つ入力データのペアは負の相関関係になります。
私たちの分析によると、トレーニングの初期段階で、最初の層のニューロンは、2 番目の層の対応する重みに応じて、正のデータまたは負のデータのいずれかに合わせようとします。
ニューロンの指向性ダイナミクスを注意深く分析することで、すべてのニューロンが入力データと良好な位置合わせを達成するのにかかる時間の $\mathcal{O}(\frac{\log n}{\sqrt{\mu}})$ の上限を与えることができます。ここで、$n$ はデータ点の数、$\mu$ はデータがどの程度分離されているかを表します。
初期の調整フェーズの後、損失は $\mathcal{O}(\frac{1}{t})$ のレートでゼロに収束し、最初の層の重み行列はほぼ低ランクになります。
MNIST データセットの数値実験は、理論的な発見を示しています。
要約(オリジナル)
This paper studies the problem of training a two-layer ReLU network for binary classification using gradient flow with small initialization. We consider a training dataset with well-separated input vectors: Any pair of input data with the same label are positively correlated, and any pair with different labels are negatively correlated. Our analysis shows that, during the early phase of training, neurons in the first layer try to align with either the positive data or the negative data, depending on its corresponding weight on the second layer. A careful analysis of the neurons’ directional dynamics allows us to provide an $\mathcal{O}(\frac{\log n}{\sqrt{\mu}})$ upper bound on the time it takes for all neurons to achieve good alignment with the input data, where $n$ is the number of data points and $\mu$ measures how well the data are separated. After the early alignment phase, the loss converges to zero at a $\mathcal{O}(\frac{1}{t})$ rate, and the weight matrix on the first layer is approximately low-rank. Numerical experiments on the MNIST dataset illustrate our theoretical findings.
arxiv情報
著者 | Hancheng Min,René Vidal,Enrique Mallada |
発行日 | 2023-07-24 14:51:54+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google