Gompertz Linear Units: Leveraging Asymmetry for Enhanced Learning Dynamics

要約

活性化関数は、トレーニングのダイナミクスに大きな影響を与えるため、深い学習アーキテクチャの基本的な要素です。
Reluは広く使用されていますが、負のニューロンの問題を緩和する傾向があります。これは、負のニューロン出力をよりよく処理するLeakyrelu、Prelu、Eluなどのバリアントによって緩和されています。
最近、GeluやSwishなどの自己緩和された活性化が最先端の代替品として浮上し、滑らかさを活用して安定した勾配の流れを確保し、ニューロンの不活性を防ぎます。
この作業では、$ \ mathrm {golu}(x)= x \、\ mathrm {gompertz}(x)$、$ \ mathrm {gompertz}(x)= x \ mathrm {gompertz}(x)= e^{ – e^{ – e^{-e^{-e^{x^{-e^{-e^{x^{-e^{x $}として定義された新しい自己緩和された活性化関数であるGompertz線形ユニット(Golu)を導入します。
Goluの活性化は、Gompertz関数の右剥離された非対称性を活用して、GeluやSwishと比較して潜在空間の分散をより効果的に減らし、堅牢な勾配の流れを維持します。
画像分類、言語モデリング、セマンティックセグメンテーション、オブジェクトの検出、インスタンスセグメンテーション、拡散など、多様なタスク全体の広範な実験は、最先端の活性化関数と比較してGoluの優れた性能を強調し、Goluを既存の活性化関数に代わる堅牢な代替として確立します。

要約(オリジナル)

Activation functions are fundamental elements of deep learning architectures as they significantly influence training dynamics. ReLU, while widely used, is prone to the dying neuron problem, which has been mitigated by variants such as LeakyReLU, PReLU, and ELU that better handle negative neuron outputs. Recently, self-gated activations like GELU and Swish have emerged as state-of-the-art alternatives, leveraging their smoothness to ensure stable gradient flow and prevent neuron inactivity. In this work, we introduce the Gompertz Linear Unit (GoLU), a novel self-gated activation function defined as $\mathrm{GoLU}(x) = x \, \mathrm{Gompertz}(x)$, where $\mathrm{Gompertz}(x) = e^{-e^{-x}}$. The GoLU activation leverages the right-skewed asymmetry in the Gompertz function to reduce variance in the latent space more effectively compared to GELU and Swish, while preserving robust gradient flow. Extensive experiments across diverse tasks, including Image Classification, Language Modeling, Semantic Segmentation, Object Detection, Instance Segmentation, and Diffusion, highlight GoLU’s superior performance relative to state-of-the-art activation functions, establishing GoLU as a robust alternative to existing activation functions.

arxiv情報

著者 Indrashis Das,Mahmoud Safari,Steven Adriaensen,Frank Hutter
発行日 2025-05-21 15:36:14+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG パーマリンク