Saturated Non-Monotonic Activation Functions

要約

活性化関数は、深層学習ネットワークに不可欠なものである。一般的で汎用性の高い活性化関数は、ほとんどが単調関数であり、いくつかの非単調活性化関数が研究され、有望な性能を示しています。しかし、非単調性を導入することで、正の入力も変化させてしまい、ReLUやその亜種の成功により不要であることが証明されている。本論文では、非単調活性化関数の開発をさらに進め、ReLUと非単調活性化関数の特徴を組み合わせて、飽和ガウス誤差リニアユニットを提案する。本提案手法により構築された3つの新しい活性化関数を紹介する:SGELU、SSiLU、SMishは、それぞれGELU、SiLU、Mishのマイナス部分とReLUのプラス部分から構成されている。CIFAR-100を用いた画像分類実験の結果、提案した活性化関数は非常に有効であり、複数の深層学習アーキテクチャにおいて、最先端のベースラインを上回る性能を持つことが示された。

要約(オリジナル)

Activation functions are essential to deep learning networks. Popular and versatile activation functions are mostly monotonic functions, some non-monotonic activation functions are being explored and show promising performance. But by introducing non-monotonicity, they also alter the positive input, which is proved to be unnecessary by the success of ReLU and its variants. In this paper, we double down on the non-monotonic activation functions’ development and propose the Saturated Gaussian Error Linear Units by combining the characteristics of ReLU and non-monotonic activation functions. We present three new activation functions built with our proposed method: SGELU, SSiLU, and SMish, which are composed of the negative portion of GELU, SiLU, and Mish, respectively, and ReLU’s positive portion. The results of image classification experiments on CIFAR-100 indicate that our proposed activation functions are highly effective and outperform state-of-the-art baselines across multiple deep learning architectures.

arxiv情報

著者 Junjia Chen,Zhibin Pan
発行日 2023-05-12 15:01:06+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.LG, cs.NE パーマリンク