要約
最適な活性化関数の選択は、深層学習モデルの学習能力、安定性、計算効率に影響を与えるため、深層学習モデルの有効性にとって重要な要素です。
近年、Gaussian Error Linear Unit (GELU) アクティベーション関数が、さまざまなアプリケーションで Rectified Linear Unit (ReLU) などの従来の関数を上回る有力な手法として台頭しています。
この研究では、GELU 活性化関数の厳密な数学的研究を提示し、その微分可能性、有界性、定常性、および滑らかさの特性を詳細に調査しています。
さらに、CIFAR-10、CIFAR-100、および STL-10 データセットでトレーニングされた残差畳み込みネットワークを経験的テストベッドとして利用して、GELU 関数と幅広い代替活性化関数との広範な実験比較を実施します。
私たちの結果は、他の活性化関数と比較して GELU のパフォーマンスが優れていることを実証し、広範な深層学習アプリケーションに対する GELU の適合性を確立しています。
この包括的な研究は、GELU の基礎となる数学的特性のより深い理解に貢献し、深層学習における特定の目的と制約に最適に適合する活性化関数の選択を目指す実践者に貴重な洞察を提供します。
要約(オリジナル)
Selecting the most suitable activation function is a critical factor in the effectiveness of deep learning models, as it influences their learning capacity, stability, and computational efficiency. In recent years, the Gaussian Error Linear Unit (GELU) activation function has emerged as a dominant method, surpassing traditional functions such as the Rectified Linear Unit (ReLU) in various applications. This study presents a rigorous mathematical investigation of the GELU activation function, exploring its differentiability, boundedness, stationarity, and smoothness properties in detail. Additionally, we conduct an extensive experimental comparison of the GELU function against a broad range of alternative activation functions, utilizing a residual convolutional network trained on the CIFAR-10, CIFAR-100, and STL-10 datasets as the empirical testbed. Our results demonstrate the superior performance of GELU compared to other activation functions, establishing its suitability for a wide range of deep learning applications. This comprehensive study contributes to a more profound understanding of the underlying mathematical properties of GELU and provides valuable insights for practitioners aiming to select activation functions that optimally align with their specific objectives and constraints in deep learning.
arxiv情報
著者 | Minhyeok Lee |
発行日 | 2023-08-01 08:47:59+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google