要約
ニューラル ネットワークの表現力は活性化関数の性質に大きく依存しますが、活性化関数は通常、トレーニング段階で事前に定義され固定されていると想定されます。
信号処理の観点から、この論文では、非線形活性化関数が離散コサイン変換 (DCT) を使用してモデル化され、トレーニング中にバックプロパゲーションを使用して適応される新しいモデルである Expressive Neural Network (ENN) を紹介します。
このパラメータ化により、トレーニング可能なパラメータの数が少なくなり、勾配ベースのスキームに適しており、さまざまな学習タスクに適応します。
これは、信号処理の観点に依存する活性化関数の最初の非線形モデルであり、ネットワークに高い柔軟性と表現力を提供します。
私たちは、バンプの概念、つまり出力空間における各活性化関数の応答を回復することにより、収束時のネットワークの説明可能性に関する洞察に貢献します。
最後に、徹底的な実験を通じて、モデルが分類タスクと回帰タスクに適応できることを示します。
ENN のパフォーマンスは最先端のベンチマークを上回り、一部のシナリオでは精度に 40% 以上の差があります。
要約(オリジナル)
The expressiveness of neural networks highly depends on the nature of the activation function, although these are usually assumed predefined and fixed during the training stage. Under a signal processing perspective, in this paper we present Expressive Neural Network (ENN), a novel model in which the non-linear activation functions are modeled using the Discrete Cosine Transform (DCT) and adapted using backpropagation during training. This parametrization keeps the number of trainable parameters low, is appropriate for gradient-based schemes, and adapts to different learning tasks. This is the first non-linear model for activation functions that relies on a signal processing perspective, providing high flexibility and expressiveness to the network. We contribute with insights in the explainability of the network at convergence by recovering the concept of bump, this is, the response of each activation function in the output space. Finally, through exhaustive experiments we show that the model can adapt to classification and regression tasks. The performance of ENN outperforms state of the art benchmarks, providing above a 40% gap in accuracy in some scenarios.
arxiv情報
著者 | Marc Martinez-Gost,Ana Pérez-Neira,Miguel Ángel Lagunas |
発行日 | 2024-01-16 11:15:43+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google