Training a Two Layer ReLU Network Analytically

要約

タイトル:Two Layer ReLUネットワークの解析的トレーニング
要約:
– ニューラルネットワークは、通常、確率的勾配降下法やAdamオプティマイザなどの異なる変形を用いてトレーニングされます。
– 最近の理論的研究によれば、二層ReLUネットワークにおいて、二乗損失を用いて勾配がゼロになる臨界点はすべて局所最小値ではないとされています。
– しかし、この研究では、ReLUライクな活性化関数と二乗損失を用いた二層ニューラルネットワークのトレーニングのためのアルゴリズムを探索します。
– このアルゴリズムは、1つのレイヤーのクリティカルポイントを解析的に見つけながら、他の層やニューロンの活性化パターンを固定します。
– 実験結果によれば、このシンプルなアルゴリズムは、Stochastic Gradient DescentやAdamオプティマイザよりも深い極小値を見つけることができ、5つのデータセットのうち4つで訓練損失値が有意に小さくなりました。
– さらに、この方法は勾配降下法よりも速く、調整すべきパラメータはほとんどありません。

要約(オリジナル)

Neural networks are usually trained with different variants of gradient descent based optimization algorithms such as stochastic gradient descent or the Adam optimizer. Recent theoretical work states that the critical points (where the gradient of the loss is zero) of two-layer ReLU networks with the square loss are not all local minima. However, in this work we will explore an algorithm for training two-layer neural networks with ReLU-like activation and the square loss that alternatively finds the critical points of the loss function analytically for one layer while keeping the other layer and the neuron activation pattern fixed. Experiments indicate that this simple algorithm can find deeper optima than Stochastic Gradient Descent or the Adam optimizer, obtaining significantly smaller training loss values on four out of the five real datasets evaluated. Moreover, the method is faster than the gradient descent methods and has virtually no tuning parameters.

arxiv情報

著者 Adrian Barbu
発行日 2023-04-06 09:57:52+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.LG, stat.ML パーマリンク