Spectral complexity of deep neural networks

要約

ランダムに初期化され、前進し、完全に接続されたニューラル ネットワークは、すべての層の幅が無限大になる極限では、等方性ガウス過程に弱く収束することがよく知られています。
この論文では、ネットワーク アーキテクチャの複雑さを特徴付けるために、制限場の角パワー スペクトルを使用することを提案します。
特に、角度パワースペクトルに関連付けられた確率変数のシーケンスを定義し、深さが発散するにつれてこれらのシーケンスの漸近分布の観点からネットワークの複雑性の完全な特徴付けを提供します。
これに基づいて、ニューラル ネットワークを低無秩序、疎、または高無秩序に分類します。
この分類によって、標準の活性化関数の多くの異なる特徴、特に ReLU ネットワークのスパース性特性がどのように強調されるかを示します。
私たちの理論的結果は数値シミュレーションによっても検証されています。

要約(オリジナル)

It is well-known that randomly initialized, push-forward, fully-connected neural networks weakly converge to isotropic Gaussian processes, in the limit where the width of all layers goes to infinity. In this paper, we propose to use the angular power spectrum of the limiting field to characterize the complexity of the network architecture. In particular, we define sequences of random variables associated with the angular power spectrum, and provide a full characterization of the network complexity in terms of the asymptotic distribution of these sequences as the depth diverges. On this basis, we classify neural networks as low-disorder, sparse, or high-disorder; we show how this classification highlights a number of distinct features for standard activation functions, and in particular, sparsity properties of ReLU networks. Our theoretical results are also validated by numerical simulations.

arxiv情報

著者 Simmaco Di Lillo,Domenico Marinucci,Michele Salvi,Stefano Vigogna
発行日 2024-05-15 17:55:05+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: 33C55, 60G60, 62M15, 68T07, cs.LG, math.PR, stat.ML パーマリンク