Activation Functions Not To Active: A Plausible Theory on Interpreting Neural Networks

要約

タイトル: 活性化関数を無効にする:ニューラルネットワークの解釈に関する妥当な理論

要約:
– ニューラルネットワークは高次元空間をモデル化するが、この空間の明確な定義を与えることはできないと考えられている。
– 本論文では、活性化関数の役割に着目してニューラルネットワークを解釈するための妥当な理論を開発し、高次元(より厳密には無限次元)空間を定義する。
– 活性化関数は、低次元線形空間を無限次元空間に写像する拡大関数として作用すると考えられる。
– 与えられたデータセットについて、各例が $d$ の特徴量 $f_1$、$f_2$、$\cdots$、$f_d$ を持つ場合、ニューラルネットワークが無限次元の空間である特別な空間をモデル化すると信じられる。それぞれの次元は、非負整数 ${i_1、i_2、\cdots、i_d} \in \mathbb{Z}_{0}^{+}=\{0,1,2,3,\ldots\}$ の形式のある単項式 $$\prod_{i_1, i_2, \cdots, i_d} f_1^{i_1} f_2^{i_2} \cdots f_d^{i_d}$$ である。
– このような無限次元空間を「スーパースペース」と呼び、この次元を最小情報単位と見なす。
– 前処理層を通過する各ニューロンノードは「スーパープレーン(SP)」であり、実際には無限次数の多項式である。
– この「スーパースペース」は、あらん限りの多価関数を表現することができる座標系のようなものである。回帰タスクのニューラルネットワークは、線形回帰の拡張であり、無限次元の特徴量を持つ線形回帰の高度なバリアントであると見なすことができる。ロジスティック回帰は線形回帰の拡張であると考えられるため、同様の関係がある。
– また、ニューラルネットワークのトレーニングは、少なくとも非線形方程式系を解くことに減らすことができることを示す。

要約(オリジナル)

Researchers commonly believe that neural networks model a high-dimensional space but cannot give a clear definition of this space. What is this space? What is its dimension? And does it has finite dimensions? In this paper, we develop a plausible theory on interpreting neural networks in terms of the role of activation functions in neural networks and define a high-dimensional (more precisely, an infinite-dimensional) space. We conjunction that the activation function acts as a magnifying function that maps the low-dimensional linear space into an infinite-dimensional space. Given a dataset with each example of $d$ features $f_1$, $f_2$, $\cdots$, $f_d$, we believe that NNs model a special space with infinite dimensions, each of which is a monomial $$\prod_{i_1, i_2, \cdots, i_d} f_1^{i_1} f_2^{i_2} \cdots f_d^{i_d}$$ for some non-negative integers ${i_1, i_2, \cdots, i_d} \in \mathbb{Z}_{0}^{+}=\{0,1,2,3,\ldots\} $. We term such an infinite-dimensional space $\textit{ Super Space (SS)}$. We see such a dimension as the minimum information unit. Every neuron node previously through an activation layer in NNs is a $\textit{ Super Plane (SP) }$, which is actually a polynomial of infinite degree. This $\textit{ Super Space }$ is something like a coordinate system, in which every multivalue function can be represented by a $\textit{ Super Plane }$. From this perspective, a neural network for regression tasks can be seen as an extension of linear regression, i.e. an advanced variant of linear regression with infinite-dimensional features, just as logistic regression is an extension of linear regression. We also show that training NNs could at least be reduced to solving a system of nonlinear equations.

arxiv情報

著者 John Chiang
発行日 2023-05-01 05:23:58+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.LG, cs.NE パーマリンク