Exact Solutions of a Deep Linear Network

要約

タイトル: 深層線形ネットワークの正確な解
要約:
-重み減衰と確率的ニューロンを持つ深層線形ネットワークのグローバル最小値の解析式を見つけた
-この結果は、深層ニューラルネットワーク構造においてゼロが特別な点であることを示唆する
-著者らは、重み減衰がモデル構造と強く相互作用することを示し、1つ以上の隠れ層を持つネットワークでは、ゼロで悪い最小値を作ることができることを発見した
-重要性として、一般的な深層学習初期化方法がニューラルネットワークの最適化を容易にするのに十分でないことを意味する

要約(オリジナル)

This work finds the analytical expression of the global minima of a deep linear network with weight decay and stochastic neurons, a fundamental model for understanding the landscape of neural networks. Our result implies that zero is a special point in deep neural network architecture. We show that weight decay strongly interacts with the model architecture and can create bad minima at zero in a network with more than $1$ hidden layer, qualitatively different from a network with only $1$ hidden layer. Practically, our result implies that common deep learning initialization methods are insufficient to ease the optimization of neural networks in general.

arxiv情報

著者 Liu Ziyin,Botao Li,Xiangming Meng
発行日 2023-04-03 09:23:26+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.LG, stat.ML パーマリンク