Random ReLU Neural Networks as Non-Gaussian Processes

要約

ランダムに初期化されたパラメータと修正された線形ユニット活性化関数を備えた大規模なクラスの浅いニューラル ネットワークを検討します。
これらのランダム ニューラル ネットワークが明確に定義された非ガウス プロセスであることを証明します。
副産物として、これらのネットワークが、インパルス性ホワイト ノイズ (ランダムなディラック測度の組み合わせ) によって駆動される確率微分方程式の解であることを実証します。
これらのプロセスは、重みとバイアスの法則、および入力ドメインの各境界領域のアクティブ化しきい値の密度によってパラメーター化されます。
これらの過程は等方性であり、ハースト指数 $3/2$ を持つ広義の自己相似であることを証明します。
また、自己共分散関数の非常に単純な閉形式式も導出します。
私たちの結果は、非漸近的な観点を考慮しているという点で、以前の研究とは根本的に異なります。つまり、入力ドメインの各境界領域内のニューロンの数 (つまり、幅) 自体は、平均がポアソン則に比例する確率変数です。
密度パラメータ。
最後に、適切な仮説の下では、期待される幅は無限大になる傾向があるため、これらの過程はガウス過程だけでなく、重みの法則に応じて非ガウス過程にも法則的に収束する可能性があることを示します。
私たちの漸近結果は、いくつかの古典的な結果 (ワイド ネットワークはガウス過程に収束する) といくつかの新しい結果 (ワイド ネットワークは非ガウス過程に収束する可能性がある) に対する新しい解釈を提供します。

要約(オリジナル)

We consider a large class of shallow neural networks with randomly initialized parameters and rectified linear unit activation functions. We prove that these random neural networks are well-defined non-Gaussian processes. As a by-product, we demonstrate that these networks are solutions to stochastic differential equations driven by impulsive white noise (combinations of random Dirac measures). These processes are parameterized by the law of the weights and biases as well as the density of activation thresholds in each bounded region of the input domain. We prove that these processes are isotropic and wide-sense self-similar with Hurst exponent $3/2$. We also derive a remarkably simple closed-form expression for their autocovariance function. Our results are fundamentally different from prior work in that we consider a non-asymptotic viewpoint: The number of neurons in each bounded region of the input domain (i.e., the width) is itself a random variable with a Poisson law with mean proportional to the density parameter. Finally, we show that, under suitable hypotheses, as the expected width tends to infinity, these processes can converge in law not only to Gaussian processes, but also to non-Gaussian processes depending on the law of the weights. Our asymptotic results provide a new take on several classical results (wide networks converge to Gaussian processes) as well as some new ones (wide networks can converge to non-Gaussian processes).

arxiv情報

著者 Rahul Parhi,Pakshal Bohra,Ayoub El Biari,Mehrsa Pourya,Michael Unser
発行日 2024-05-16 16:28:11+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, math.PR, stat.ML パーマリンク