要約
アンサンブルは、独立したニューラルネットワークをいくつか組み合わせることで、ニューラルネットワークの性能を向上させるアプローチの1つで、通常は個々の出力を平均化するか合計する。われわれは、サブネットワークを独立にではなく同時に訓練することで、このアンサンブルアプローチを修正する。このサブネットワークの同時訓練により、サブネットワークは互いに協調するようになり、我々はこれを「協調的アンサンブル」と呼ぶ。一方、mixture-of-expertsアプローチは、与えられたデータセットをサブネットワークに分割することで、ニューラルネットワークの性能を向上させる。そして「エキスパート」と呼ばれるサブネットワークのそれぞれに専門性を割り当てるゲーティングネットワークを使用する。我々は、k-Winners-Take-All(kWTA)活性化関数を使用することで、前述のニューラルネットワーク群を結合する方法を改良し、アンサンブル内の各サブネットワークの出力の結合方法として機能させる。この提案モデルを「kWTAアンサンブル・ニューラルネットワーク」(kWTA-ENN)と呼ぶ。kWTA活性化関数を用いると、サブネットワークの負けたニューロンは抑制され、勝ったニューロンは保持される。この結果、サブネットワークはある種の専門性を持つが、互いに知識を共有する。我々は、サブネットワークのアーキテクチャとして、100個のニューロンを持つ1つの隠れ層を持つフィードフォワードニューラルネットワークを用いた、協調的アンサンブルやmixture-of-expertsと我々のアプローチを比較する。我々のアプローチは、ベースラインモデルと比較して優れた性能をもたらし、ベンチマークデータセットにおいて以下のテスト精度に達した:MNISTで98.34%、Fashion-MNISTで88.06%、KMNISTで91.56%、WDBCで95.97%。
要約(オリジナル)
Ensembling is one approach that improves the performance of a neural network by combining a number of independent neural networks, usually by either averaging or summing up their individual outputs. We modify this ensembling approach by training the sub-networks concurrently instead of independently. This concurrent training of sub-networks leads them to cooperate with each other, and we refer to them as ‘cooperative ensemble’. Meanwhile, the mixture-of-experts approach improves a neural network performance by dividing up a given dataset to its sub-networks. It then uses a gating network that assigns a specialization to each of its sub-networks called ‘experts’. We improve on these aforementioned ways for combining a group of neural networks by using a k-Winners-Take-All (kWTA) activation function, that acts as the combination method for the outputs of each sub-network in the ensemble. We refer to this proposed model as ‘kWTA ensemble neural networks’ (kWTA-ENN). With the kWTA activation function, the losing neurons of the sub-networks are inhibited while the winning neurons are retained. This results in sub-networks having some form of specialization but also sharing knowledge with one another. We compare our approach with the cooperative ensemble and mixture-of-experts, where we used a feed-forward neural network with one hidden layer having 100 neurons as the sub-network architecture. Our approach yields a better performance compared to the baseline models, reaching the following test accuracies on benchmark datasets: 98.34% on MNIST, 88.06% on Fashion-MNIST, 91.56% on KMNIST, and 95.97% on WDBC.
arxiv情報
著者 | Abien Fred Agarap,Arnulfo P. Azcarraga |
発行日 | 2024-01-04 06:40:32+00:00 |
arxivサイト | arxiv_id(pdf) |