要約
タイトル:TanとRectified Linear Unitを組み合わせたハイブリッドな活性化関数TaLUによるニューラルネットワークの高精度化
要約:
– 深層学習モデルの分類における精度には、隠れ層と出力層の活性化関数が大きく影響している。
– この論文では、TanhとReLUを組み合わせた活性化関数「TaLU」が提案され、その活性化関数を使うことで精度が向上した。
– ReLUは、計算効率や実装の容易さなどから多くの研究者によって使われているが、マイナスの入力に対しては出力が常にゼロになるなどの問題がある。その問題を改善するために、LeakyReLU、Softplus、Softsign、Elu、ThresholdedReLUなどのアプローチが研究されてきた。TaLUは、これらの手法を参考に、TanhとReLUを組み合わせた改良版の活性化関数であり、ReLUの問題を解決することを目的としている。
– 提案された活性化関数を用いた深層学習モデルは、MNISTやCIFAR-10などのテストで、ReLUや他のいくつかの活性化関数よりも精度が向上した(Batch Normalizationや適切な学習率と組み合わせた場合、最大6%ほどの向上が見られた)。
要約(オリジナル)
The application of the deep learning model in classification plays an important role in the accurate detection of the target objects. However, the accuracy is affected by the activation function in the hidden and output layer. In this paper, an activation function called TaLU, which is a combination of Tanh and Rectified Linear Units (ReLU), is used to improve the prediction. ReLU activation function is used by many deep learning researchers for its computational efficiency, ease of implementation, intuitive nature, etc. However, it suffers from a dying gradient problem. For instance, when the input is negative, its output is always zero because its gradient is zero. A number of researchers used different approaches to solve this issue. Some of the most notable are LeakyReLU, Softplus, Softsign, Elu, ThresholdedReLU, etc. This research developed TaLU, a modified activation function combining Tanh and ReLU, which mitigates the dying gradient problem of ReLU. The deep learning model with the proposed activation function was tested on MNIST and CIFAR-10, and it outperforms ReLU and some other studied activation functions in terms of accuracy(from 0\% upto 6\% in most cases, when used with Batch Normalization and a reasonable learning rate).
arxiv情報
著者 | Md. Mehedi Hasan,Md. Ali Hossain,Azmain. Yakin Srizon,Abu Sayeed |
発行日 | 2023-05-08 01:13:59+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, OpenAI