Computationally Efficient Quadratic Neural Networks

要約

入力の高次の多項関数に活性化関数を適用することによって出力が計算される高次の人工ニューロンは、過去に検討されましたが、追加のパラメーターと計算コストのために受け入れられませんでした。
ただし、高次ニューロンの決定境界は単なる超平面ではなく複雑な曲面になる可能性があるため、高次ニューロンの学習能力は大幅に向上します。
単一の二次ニューロンの境界は、多くの非線形分離可能なデータセットを学習できる一般的な超二次曲面にすることができます。
二次形式は対称行列で表現できるため、$n^2$ の代わりに $\frac{n(n+1)}{2}$ の追加パラメータのみが必要です。
二次ロジスティック回帰モデルが最初に提示されます。
単一の二次ニューロンを使用した XOR 問題の解決策を検討します。
二次ニューロンで構成されるフィードフォワード ネットワークにおける順方向伝播と逆方向伝播の両方に対する完全なベクトル化方程式が導出されます。
学習能力と計算コストとの間の妥協点を提供する、ニューロンあたりわずか $ n $ の追加パラメーターを備えた、パラメーターを削減した二次ニューラル ネットワーク モデルが提示されます。
ベンチマーク分類データセットの比較は、二次ニューロンの最終層により、ネットワークが大幅に少ない隠れ層ニューロンでより高い精度を達成できることを実証するために使用されます。
特にこの論文は、$C$ 有界クラスターで構成されるデータセットは、$C$ 二次ニューロンの単一層だけで分離できることを示しています。

要約(オリジナル)

Higher order artificial neurons whose outputs are computed by applying an activation function to a higher order multinomial function of the inputs have been considered in the past, but did not gain acceptance due to the extra parameters and computational cost. However, higher order neurons have significantly greater learning capabilities since the decision boundaries of higher order neurons can be complex surfaces instead of just hyperplanes. The boundary of a single quadratic neuron can be a general hyper-quadric surface allowing it to learn many nonlinearly separable datasets. Since quadratic forms can be represented by symmetric matrices, only $\frac{n(n+1)}{2}$ additional parameters are needed instead of $n^2$. A quadratic Logistic regression model is first presented. Solutions to the XOR problem with a single quadratic neuron are considered. The complete vectorized equations for both forward and backward propagation in feedforward networks composed of quadratic neurons are derived. A reduced parameter quadratic neural network model with just $ n $ additional parameters per neuron that provides a compromise between learning ability and computational cost is presented. Comparison on benchmark classification datasets are used to demonstrate that a final layer of quadratic neurons enables networks to achieve higher accuracy with significantly fewer hidden layer neurons. In particular this paper shows that any dataset composed of $C$ bounded clusters can be separated with only a single layer of $C$ quadratic neurons.

arxiv情報

著者 Mathew Mithra Noel,Venkataraman Muthiah-Nakarajan
発行日 2023-10-04 15:39:57+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: 68T07, cs.CV, cs.NE, I.5.0 パーマリンク