Globally Optimal Training of Neural Networks with Threshold Activation Functions

要約

閾値活性化関数は、ハードウェア実装の効率性から、ニューラルネットワークにおいて非常に好まれる。さらに、その動作モードは、より解釈しやすく、生物学的なニューロンの動作に似ています。しかし、閾値活性化関数は微分不可能な1点を除いて勾配がゼロであるため、勾配降下法などの従来の勾配ベースのアルゴリズムでは閾値活性化関数のニューラルネットワークのパラメータを学習することができない。このため、我々は、閾値活性化を持つディープニューラルネットワークの重み減衰正則化学習問題を研究する。我々はまず、正則化された深い閾値ネットワークの学習問題は、最後の隠れ層の幅がある閾値を超える場合に、LASSO法に類似した標準的な凸最適化問題として等価的に定式化できることを示す。また、データセットがネットワークのある層で粉砕できる場合には、簡略化された凸最適化定式化を導出する。我々は、理論的な結果を様々な数値実験によって裏づける。

要約(オリジナル)

Threshold activation functions are highly preferable in neural networks due to their efficiency in hardware implementations. Moreover, their mode of operation is more interpretable and resembles that of biological neurons. However, traditional gradient based algorithms such as Gradient Descent cannot be used to train the parameters of neural networks with threshold activations since the activation function has zero gradient except at a single non-differentiable point. To this end, we study weight decay regularized training problems of deep neural networks with threshold activations. We first show that regularized deep threshold network training problems can be equivalently formulated as a standard convex optimization problem, which parallels the LASSO method, provided that the last hidden layer width exceeds a certain threshold. We also derive a simplified convex optimization formulation when the dataset can be shattered at a certain layer of the network. We corroborate our theoretical results with various numerical experiments.

arxiv情報

著者 Tolga Ergen,Halil Ibrahim Gulluk,Jonathan Lacotte,Mert Pilanci
発行日 2023-03-06 18:59:13+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.LG, stat.ML パーマリンク