Early alignment in two-layer networks training is a two-edged sword

要約

一次最適化手法を使用してニューラル ネットワークをトレーニングすることは、ディープ ラーニングの経験的な成功の中核です。
小規模な初期化は一般に特徴学習レジームに関連付けられており、その場合、勾配降下法は単純な解に暗黙的にバイアスがかかるため、初期化のスケールは重要な要素です。
この研究は、Maennel らによって最初に導入された初期のアラインメント段階の一般的かつ定量的な説明を提供します。
(2018) 。
小規模な初期化と 1 つの隠れ ReLU 層ネットワークの場合、トレーニング ダイナミクスの初期段階で、主要な方向に向かってニューロンが整列します。
この位置合わせにより、ネットワークのまばらな表現が引き起こされ、これは収束時の勾配流の暗黙的なバイアスに直接関係します。
ただし、このスパース性によるアラインメントは、トレーニング目標を最小化する際の困難を犠牲にしています。また、過パラメータ化されたネットワークが大域最小値に収束せず、代わりに偽の静止点にのみ収束する単純なデータ例も提供します。

要約(オリジナル)

Training neural networks with first order optimisation methods is at the core of the empirical success of deep learning. The scale of initialisation is a crucial factor, as small initialisations are generally associated to a feature learning regime, for which gradient descent is implicitly biased towards simple solutions. This work provides a general and quantitative description of the early alignment phase, originally introduced by Maennel et al. (2018) . For small initialisation and one hidden ReLU layer networks, the early stage of the training dynamics leads to an alignment of the neurons towards key directions. This alignment induces a sparse representation of the network, which is directly related to the implicit bias of gradient flow at convergence. This sparsity inducing alignment however comes at the expense of difficulties in minimising the training objective: we also provide a simple data example for which overparameterised networks fail to converge towards global minima and only converge to a spurious stationary point instead.

arxiv情報

著者 Etienne Boursier,Nicolas Flammarion
発行日 2024-01-19 16:23:53+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG パーマリンク