Empirical Loss Landscape Analysis of Neural Network Activation Functions

要約

活性化関数は、非線形性を可能にすることでニューラル ネットワークの設計において重要な役割を果たします。
活性化関数の選択は、結果として生じる損失状況の特性に影響を与えることが以前に示されました。
活性化関数と損失ランドスケープ プロパティの関係を理解することは、ニューラル アーキテクチャとトレーニング アルゴリズムの設計にとって重要です。
この研究では、双曲線正接、修正線形単位、および指数線形単位の活性化関数に関連するニューラル ネットワークの損失状況を経験的に調査します。
修正線形ユニットは最も凸状の損失ランドスケープを生成することが示され、指数関数的線形ユニットは最小の平坦な損失ランドスケープを生成し、優れた汎化パフォーマンスを示すことが示されています。
損失状況における広い谷と狭い谷の存在は、すべての活性化関数について確立されており、狭い谷は飽和ニューロンおよび暗黙的に正則化されたネットワーク構成と相関していることが示されています。

要約(オリジナル)

Activation functions play a significant role in neural network design by enabling non-linearity. The choice of activation function was previously shown to influence the properties of the resulting loss landscape. Understanding the relationship between activation functions and loss landscape properties is important for neural architecture and training algorithm design. This study empirically investigates neural network loss landscapes associated with hyperbolic tangent, rectified linear unit, and exponential linear unit activation functions. Rectified linear unit is shown to yield the most convex loss landscape, and exponential linear unit is shown to yield the least flat loss landscape, and to exhibit superior generalisation performance. The presence of wide and narrow valleys in the loss landscape is established for all activation functions, and the narrow valleys are shown to correlate with saturated neurons and implicitly regularised network configurations.

arxiv情報

著者 Anna Sergeevna Bosman,Andries Engelbrecht,Marde Helbig
発行日 2023-06-28 10:46:14+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, cs.NE パーマリンク