Improving Classification Neural Networks by using Absolute activation function (MNIST/LeNET-5 example)

要約

【タイトル】
絶対値活性化関数を使用した分類ニューラルネットワークの改善(MNIST/ LeNet-5例)

【要約】
本論文では、分類ニューラルネットワークでの絶対値活性化関数の使用について述べています。簡単な問題とより複雑な問題でこの活性化関数を使用した例が示されています。 MNIST問題を解決するためのLeNet-5ネットワークをベースラインとして使用し、Tanh、ReLU、SeLU活性化の使用と比較して、絶対値活性化関数の効率が示されています。深層ネットワークでは、絶対値活性化は消失および爆発勾配を引き起こさないため、簡単なニューラルネットワークおよび深層ニューラルネットワークの両方で使用できます。絶対値活性化を使用してトレーニングネットワークのボラティリティが高いため、特別なADAMトレーニングアルゴリズムの変更が行われ、トレーニングエポックごとにバリデーションデータ分析を使用して任意のテストデータセットの精度の下限値を推定し、これらのステップの間にADAMアルゴリズムを再初期化することで学習率を停止/減らすことができます。 LeNetのようなアーキテクチャを用いた絶対値活性化に基づくMNIST問題の解決により、ニューラルネットワーク内のトレーニングされたパラメータの数を大幅に削減し、予測精度を向上できることが示されています。

要約(オリジナル)

The paper discusses the use of the Absolute activation function in classification neural networks. An examples are shown of using this activation function in simple and more complex problems. Using as a baseline LeNet-5 network for solving the MNIST problem, the efficiency of Absolute activation function is shown in comparison with the use of Tanh, ReLU and SeLU activations. It is shown that in deep networks Absolute activation does not cause vanishing and exploding gradients, and therefore Absolute activation can be used in both simple and deep neural networks. Due to high volatility of training networks with Absolute activation, a special modification of ADAM training algorithm is used, that estimates lower bound of accuracy at any test dataset using validation dataset analysis at each training epoch, and uses this value to stop/decrease learning rate, and re-initializes ADAM algorithm between these steps. It is shown that solving the MNIST problem with the LeNet-like architectures based on Absolute activation allows to significantly reduce the number of trained parameters in the neural network with improving the prediction accuracy.

arxiv情報

著者 Oleg I. Berngardt
発行日 2023-04-23 22:17:58+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.CV, cs.LG パーマリンク