Deep ReLU networks — injectivity capacity upper bounds

要約

私たちは、ディープ ReLU フィードフォワード ニューラル ネットワーク (NN) とその単射性能力を研究しています。
主な焦点は、いわゆる単射性能力を \emph{正確に} 決定することにあります。
任意の隠れ層アーキテクチャにおいて、これは、実現可能な出力からの入力の一意の回復可能性を保証する、ネットワークの出力数と入力数の間の最小比率として定義されます。
単一 ReLU 層の単射性特性の正確な研究における最近の大きな進歩は、ここでは深いネットワーク レベルに移行されています。
特に、深い $l$ 層の正味単射性を $\ell_0$ 球面パーセプトロンの $l$ 拡張に接続するプログラムを開発し、それによって単層の単層単射性の研究とその能力の間の同型性を大規模に一般化します。
[82] で議論されている (1-extension) $\ell_0$ 球面パーセプトロンと呼ばれます。
その後、\emph{ランダム双対性理論} (RDT) ベースの機構が作成され、拡張 $\ell_0$ 球面パーセプトロンの特性と暗黙的に深層 ReLU NN の特性を統計的に処理するために利用されます。
RDT装置全体の実用化に向けて、大規模な数値評価も実施されます。
これらから、必要な層の拡張が急速に減少する傾向が観察されます。つまり、急速な \emph{拡張飽和効果}が観察されます。
必要な拡張が不要なレベルに近づくには、わずか 4 ドルの層の深さだけで十分です。この結果は、実際の実験で得られた観察とかなりよく似ており、これまでのところ、既存の数学的方法論ではまったく影響を受けません。

要約(オリジナル)

We study deep ReLU feed forward neural networks (NN) and their injectivity abilities. The main focus is on \emph{precisely} determining the so-called injectivity capacity. For any given hidden layers architecture, it is defined as the minimal ratio between number of network’s outputs and inputs which ensures unique recoverability of the input from a realizable output. A strong recent progress in precisely studying single ReLU layer injectivity properties is here moved to a deep network level. In particular, we develop a program that connects deep $l$-layer net injectivity to an $l$-extension of the $\ell_0$ spherical perceptrons, thereby massively generalizing an isomorphism between studying single layer injectivity and the capacity of the so-called (1-extension) $\ell_0$ spherical perceptrons discussed in [82]. \emph{Random duality theory} (RDT) based machinery is then created and utilized to statistically handle properties of the extended $\ell_0$ spherical perceptrons and implicitly of the deep ReLU NNs. A sizeable set of numerical evaluations is conducted as well to put the entire RDT machinery in practical use. From these we observe a rapidly decreasing tendency in needed layers’ expansions, i.e., we observe a rapid \emph{expansion saturation effect}. Only $4$ layers of depth are sufficient to closely approach level of no needed expansion — a result that fairly closely resembles observations made in practical experiments and that has so far remained completely untouchable by any of the existing mathematical methodologies.

arxiv情報

著者 Mihailo Stojnic
発行日 2024-12-27 14:57:40+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cond-mat.dis-nn, cs.IT, cs.LG, math.IT, stat.ML パーマリンク