Growing Cosine Unit: A Novel Oscillatory Activation Function That Can Speedup Training and Reduce Parameters in Convolutional Neural Networks

要約

畳み込みニューラル ネットワークは、社会的にも経済的にも重要な多くの問題の解決に成功しています。
複雑な高次元関数を階層的に学習するこの機能は、非線形活性化関数の使用に起因する可能性があります。
ディープ ネットワークのトレーニングを実現可能にした重要な発見は、飽和活性化関数を使用することによって引き起こされる勾配消失問題を軽減するための Rectified Linear Unit (ReLU) 活性化関数の採用でした。
それ以来、ReLU アクティベーションの多くの改善されたバリアントが提案されてきました。
ただし、今日使用されている活性化関数の大部分は、非振動性であり、生物学的妥当性のために単調に増加します。
この論文では、振動活性化関数が勾配流を改善し、ネットワークサイズを縮小できることを示しています。
非振動性活性化関数の限界に関する 2 つの定理が提示されます。
$C(z) = z\cos z$ として定義される Growing Cosine Unit(GCU) と呼ばれる新しい振動活性化関数は、さまざまなアーキテクチャとベンチマークでシグモイド、Swish、Mish、および ReLU よりも優れています。
GCU 活性化には複数のゼロがあり、単一の GCU ニューロンが決定境界に複数の超平面を持つことができます。
これにより、単一の GCU ニューロンが特徴量エンジニアリングなしで XOR 関数を学習できます。
実験結果は、畳み込み層のアクティベーション関数を GCU アクティベーション関数に置き換えると、CIFAR-10、CIFAR-100、および Imagenette でのパフォーマンスが大幅に向上することを示しています。

要約(オリジナル)

Convolutional neural networks have been successful in solving many socially important and economically significant problems. This ability to learn complex high-dimensional functions hierarchically can be attributed to the use of nonlinear activation functions. A key discovery that made training deep networks feasible was the adoption of the Rectified Linear Unit (ReLU) activation function to alleviate the vanishing gradient problem caused by using saturating activation functions. Since then, many improved variants of the ReLU activation have been proposed. However, a majority of activation functions used today are non-oscillatory and monotonically increasing due to their biological plausibility. This paper demonstrates that oscillatory activation functions can improve gradient flow and reduce network size. Two theorems on limits of non-oscillatory activation functions are presented. A new oscillatory activation function called Growing Cosine Unit(GCU) defined as $C(z) = z\cos z$ that outperforms Sigmoids, Swish, Mish and ReLU on a variety of architectures and benchmarks is presented. The GCU activation has multiple zeros enabling single GCU neurons to have multiple hyperplanes in the decision boundary. This allows single GCU neurons to learn the XOR function without feature engineering. Experimental results indicate that replacing the activation function in the convolution layers with the GCU activation function significantly improves performance on CIFAR-10, CIFAR-100 and Imagenette.

arxiv情報

著者 Mathew Mithra Noel,Arunkumar L,Advait Trivedi,Praneet Dutta
発行日 2023-01-12 15:40:38+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG, cs.NE, I.5 パーマリンク