Stably unactivated neurons in ReLU neural networks

要約

ニューラル ネットワークのアーキテクチャの選択は、そのニューラル ネットワークによってどの機能が実現可能になるかに影響を与えるため、選択されたアーキテクチャの表現力を研究することが多くの注目を集めています。
ReLU ニューラル ネットワークでは、安定して活性化されていないニューロンが存在すると、ネットワークの表現力が低下する可能性があります。
この研究では、重みとバイアスが対称確率分布から初期化されたときに、このようなニューラル ネットワークの 2 番目の隠れ層のニューロンが安定して非活性化される確率を調査します。
入力次元が $n_0$ のネットワークの場合、最初の隠れ層に $n_0+1$ ニューロンがある場合、この確率は正確に $\frac{2^{n_0}+1}{4^{n_0+1}} であることを証明します。
$、最初の隠れ層に $n_1$ ニューロン $n_1 \le n_0$ がある場合、確率は $\frac{1}{2^{n_1+1}}$ です。
最後に、最初の隠れ層に $n_0+1$ より多くのニューロンがある場合について、理論的根拠とともに推測が提案されます。
この推測を裏付けるために、計算上の証拠が提示されています。

要約(オリジナル)

The choice of architecture of a neural network influences which functions will be realizable by that neural network and, as a result, studying the expressiveness of a chosen architecture has received much attention. In ReLU neural networks, the presence of stably unactivated neurons can reduce the network’s expressiveness. In this work, we investigate the probability of a neuron in the second hidden layer of such neural networks being stably unactivated when the weights and biases are initialized from symmetric probability distributions. For networks with input dimension $n_0$, we prove that if the first hidden layer has $n_0+1$ neurons then this probability is exactly $\frac{2^{n_0}+1}{4^{n_0+1}}$, and if the first hidden layer has $n_1$ neurons, $n_1 \le n_0$, then the probability is $\frac{1}{2^{n_1+1}}$. Finally, for the case when the first hidden layer has more neurons than $n_0+1$, a conjecture is proposed along with the rationale. Computational evidence is presented to support the conjecture.

arxiv情報

著者 Natalie Brownlowe,Christopher R. Cornwell,Ethan Montes,Gabriel Quijano,Grace Stulman,Na Zhang
発行日 2024-12-17 17:28:59+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, math.PR, stat.ML パーマリンク