Deep Network Approximation: Beyond ReLU to Diverse Activation Functions

要約

この論文では、多様な活性化関数に対するディープ ニューラル ネットワークの表現力を調査します。
活性化関数セット $\mathscr{A}$ は、$\mathtt{ReLU}$、$\mathtt{LeakyReLU}$、$\mathtt{ReLU}^2$ など、一般的に使用される活性化関数の大部分を包含するように定義されています。
、$\mathtt{ELU}$、$\mathtt{CELU}$、$\mathtt{SELU}$、$\mathtt{ソフトプラス}$、$\mathtt{GELU}$、$\mathtt{SiLU}$、$
\mathtt{スウィッシュ}$、$\mathtt{ミッシュ}$、$\mathtt{シグモイド}$、$\mathtt{タン}$、$\mathtt{アークタン}$、$\mathtt{ソフトサイン}$、$\mathtt
{dSiLU}$、および $\mathtt{SRS}$。
任意の活性化関数 $\varrho\in \mathscr{A}$ に対して、幅 $N$ と深さ $L$ の $\mathtt{ReLU}$ ネットワークは $\varrho$ によって任意の精度に近似できることを示します。
-任意の有界セット上で幅 $3N$ と深さ $2L$ のネットワークをアクティブ化します。
この発見により、$\mathtt{ReLU}$ ネットワークで達成されるほとんどの近似結果を、定数がわずかに増加するものの、他のさまざまな活性化関数に拡張することが可能になります。
重要なのは、$\varrho$ が $\ の特定のサブセット内に収まる場合、(width,$\,$ Depth) スケーリング係数を $(3,2)$ から $(1,1)$ にさらに減らすことができることを証明することです。
mathscr{A}$。
このサブセットには、$\mathtt{ELU}$、$\mathtt{CELU}$、$\mathtt{SELU}$、$\mathtt{Softplus}$、$\mathtt{GELU}$、$\mathtt などのアクティベーション関数が含まれます。
{SiLU}$、$\mathtt{スウィッシュ}$、$\mathtt{ミッシュ}$。

要約(オリジナル)

This paper explores the expressive power of deep neural networks for a diverse range of activation functions. An activation function set $\mathscr{A}$ is defined to encompass the majority of commonly used activation functions, such as $\mathtt{ReLU}$, $\mathtt{LeakyReLU}$, $\mathtt{ReLU}^2$, $\mathtt{ELU}$, $\mathtt{CELU}$, $\mathtt{SELU}$, $\mathtt{Softplus}$, $\mathtt{GELU}$, $\mathtt{SiLU}$, $\mathtt{Swish}$, $\mathtt{Mish}$, $\mathtt{Sigmoid}$, $\mathtt{Tanh}$, $\mathtt{Arctan}$, $\mathtt{Softsign}$, $\mathtt{dSiLU}$, and $\mathtt{SRS}$. We demonstrate that for any activation function $\varrho\in \mathscr{A}$, a $\mathtt{ReLU}$ network of width $N$ and depth $L$ can be approximated to arbitrary precision by a $\varrho$-activated network of width $3N$ and depth $2L$ on any bounded set. This finding enables the extension of most approximation results achieved with $\mathtt{ReLU}$ networks to a wide variety of other activation functions, albeit with slightly increased constants. Significantly, we establish that the (width,$\,$depth) scaling factors can be further reduced from $(3,2)$ to $(1,1)$ if $\varrho$ falls within a specific subset of $\mathscr{A}$. This subset includes activation functions such as $\mathtt{ELU}$, $\mathtt{CELU}$, $\mathtt{SELU}$, $\mathtt{Softplus}$, $\mathtt{GELU}$, $\mathtt{SiLU}$, $\mathtt{Swish}$, and $\mathtt{Mish}$.

arxiv情報

著者 Shijun Zhang,Jianfeng Lu,Hongkai Zhao
発行日 2024-01-31 17:57:17+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, stat.ML パーマリンク