Loss Landscape of Shallow ReLU-like Neural Networks: Stationary Points, Saddle Escaping, and Network Embedding

要約

この論文では、経験的な二乗損失でトレーニングされた ReLU のような活性化関数を備えた 1 隠れ層ニューラル ネットワークの損失状況を調査します。
活性化関数は微分不可能であるため、静止点を完全に特徴付ける方法はこれまでのところ不明です。
微分不可能な場合と微分可能な場合の両方に適用される定常性の条件を提案します。
さらに、静止点に一次条件で定義される「エスケープ ニューロン」が含まれていない場合、静止点は極小値でなければならないことを示します。
さらに、スカラー出力の場合、エスケープ ニューロンの存在により、定常点が極小値ではないことが保証されます。
私たちの結果は、浅い ReLU のようなネットワークの無限小 (消失) 初期化から始まるサドルからサドルへのトレーニング プロセスの記述を洗練し、サドル エスケープをエスケープ ニューロンのパラメーター変更と直接関連付けます。
さらに、より広いネットワーク内でより狭いネットワークをインスタンス化するネットワーク埋め込みがどのように静止点を再形成するかについても十分に議論することができます。

要約(オリジナル)

In this paper, we investigate the loss landscape of one-hidden-layer neural networks with ReLU-like activation functions trained with the empirical squared loss. As the activation function is non-differentiable, it is so far unclear how to completely characterize the stationary points. We propose the conditions for stationarity that apply to both non-differentiable and differentiable cases. Additionally, we show that, if a stationary point does not contain ‘escape neurons’, which are defined with first-order conditions, then it must be a local minimum. Moreover, for the scalar-output case, the presence of an escape neuron guarantees that the stationary point is not a local minimum. Our results refine the description of the saddle-to-saddle training process starting from infinitesimally small (vanishing) initialization for shallow ReLU-like networks, linking saddle escaping directly with the parameter changes of escape neurons. Moreover, we are also able to fully discuss how network embedding, which is to instantiate a narrower network within a wider network, reshapes the stationary points.

arxiv情報

著者 Zhengqing Wu,Berfin Simsek,Francois Ged
発行日 2024-05-27 17:08:59+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG パーマリンク