A Significantly Better Class of Activation Functions Than ReLU Like Activation Functions

要約

この論文では、ほぼ普遍的に使用されている ReLU のような活性化関数や Sigmoidal クラスの活性化関数よりもはるかに優れたクラスの活性化関数を紹介します。
Cone と Parabolic-Cone と呼ばれる 2 つの新しい活性化関数が提案されています。これらは一般的な活性化関数とは大幅に異なり、CIFAR-10 および Imagenette ベンチマークでこれらを大幅に上回ります。
錐体活性化関数は、有限の区間でのみ正となり、ゼロになる区間の終点を除いて厳密に負になります。
したがって、錐体活性化関数を持つニューロンに正の出力を生成する入力のセットは、通常の場合のようなハーフスペースではなく、ハイパーストリップです。
ハイパー ストリップは 2 つの平行な超平面間の領域であるため、ニューロンは無限に広い半空間を使用する場合よりも、入力特徴空間を正のクラスと負のクラスにさらに細かく分割できます。
特に、XOR 関数は、円錐状の活性化関数を持つ単一のニューロンによって学習できます。
錐体活性化関数と放物線錐体活性化関数はどちらも、ベンチマークで大幅に少ないニューロンで高い精度を達成することが示されています。
この論文で示された結果は、多くの非線形現実世界データセットがハーフスペースよりも少ないハイパーストリップで分離される可能性があることを示しています。
Cone および Parabolic-Cone 活性化関数は ReLU よりも大きな導関数を持ち、トレーニングを大幅に高速化することが示されています。

要約(オリジナル)

This paper introduces a significantly better class of activation functions than the almost universally used ReLU like and Sigmoidal class of activation functions. Two new activation functions referred to as the Cone and Parabolic-Cone that differ drastically from popular activation functions and significantly outperform these on the CIFAR-10 and Imagenette benchmmarks are proposed. The cone activation functions are positive only on a finite interval and are strictly negative except at the end-points of the interval, where they become zero. Thus the set of inputs that produce a positive output for a neuron with cone activation functions is a hyperstrip and not a half-space as is the usual case. Since a hyper strip is the region between two parallel hyper-planes, it allows neurons to more finely divide the input feature space into positive and negative classes than with infinitely wide half-spaces. In particular the XOR function can be learn by a single neuron with cone-like activation functions. Both the cone and parabolic-cone activation functions are shown to achieve higher accuracies with significantly fewer neurons on benchmarks. The results presented in this paper indicate that many nonlinear real-world datasets may be separated with fewer hyperstrips than half-spaces. The Cone and Parabolic-Cone activation functions have larger derivatives than ReLU and are shown to significantly speedup training.

arxiv情報

著者 Mathew Mithra Noel,Yug Oswal
発行日 2024-05-07 16:24:03+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: 68T07, cs.AI, cs.CV, cs.LG, cs.NE パーマリンク