要約
活性化関数は、深層学習ネットワークに不可欠なものである。一般的で汎用性の高い活性化関数は、ほとんどが単調関数であり、いくつかの非単調活性化関数が研究され、有望な性能を示しています。しかし、非単調性を導入することで、正の入力も変化させてしまい、ReLUやその亜種の成功により不要であることが証明されている。本論文では、非単調活性化関数の開発をさらに進め、ReLUと非単調活性化関数の特徴を組み合わせて、飽和ガウス誤差リニアユニットを提案する。本提案手法により構築された3つの新しい活性化関数を紹介する:SGELU、SSiLU、SMishは、それぞれGELU、SiLU、Mishのマイナス部分とReLUのプラス部分から構成されている。CIFAR-100を用いた画像分類実験の結果、提案した活性化関数は非常に有効であり、複数の深層学習アーキテクチャにおいて、最先端のベースラインを上回る性能を持つことが示された。
要約(オリジナル)
Activation functions are essential to deep learning networks. Popular and versatile activation functions are mostly monotonic functions, some non-monotonic activation functions are being explored and show promising performance. But by introducing non-monotonicity, they also alter the positive input, which is proved to be unnecessary by the success of ReLU and its variants. In this paper, we double down on the non-monotonic activation functions’ development and propose the Saturated Gaussian Error Linear Units by combining the characteristics of ReLU and non-monotonic activation functions. We present three new activation functions built with our proposed method: SGELU, SSiLU, and SMish, which are composed of the negative portion of GELU, SiLU, and Mish, respectively, and ReLU’s positive portion. The results of image classification experiments on CIFAR-100 indicate that our proposed activation functions are highly effective and outperform state-of-the-art baselines across multiple deep learning architectures.
arxiv情報
著者 | Junjia Chen,Zhibin Pan |
発行日 | 2023-05-12 15:01:06+00:00 |
arxivサイト | arxiv_id(pdf) |