Geometric structure of Deep Learning networks and construction of global ${\mathcal L}^2$ minimizers

要約

この論文では、$L$ 隠れ層、ランプ活性化関数、${\mathcal L}^2$ Schatten クラス (または Hilbert-Schmidt) によって特徴付けられる深層学習 (DL) ネットワークの構造の幾何学的解釈を提供します。
) コスト関数、および等しい次元 $Q\geq1$ を持つ入力および出力空間 ${\mathbb R}^Q$。
隠れ層も空間 ${\mathbb R}^{Q}$ 上に定義されます。
最近の結果を浅いニューラル ネットワークに適用して、$L\geq Q$ の場合のコスト関数の大域最小値に対する明示的なミニマイザー群を構築します。これは縮退していることがわかります。
ここで示すコンテキストでは、DL ネットワークの隠れ層は、トレーニング入力のノイズ対信号比を最小化する切り捨てマップを再帰的に適用することによってトレーニング入力を「キュレート」します。
さらに、コスト関数の $2^Q-1$ の個別の縮退極小値のセットを決定します。

要約(オリジナル)

In this paper, we provide a geometric interpretation of the structure of Deep Learning (DL) networks, characterized by $L$ hidden layers, a ramp activation function, an ${\mathcal L}^2$ Schatten class (or Hilbert-Schmidt) cost function, and input and output spaces ${\mathbb R}^Q$ with equal dimension $Q\geq1$. The hidden layers are defined on spaces ${\mathbb R}^{Q}$, as well. We apply our recent results on shallow neural networks to construct an explicit family of minimizers for the global minimum of the cost function in the case $L\geq Q$, which we show to be degenerate. In the context presented here, the hidden layers of the DL network ‘curate’ the training inputs by recursive application of a truncation map that minimizes the noise to signal ratio of the training inputs. Moreover, we determine a set of $2^Q-1$ distinct degenerate local minima of the cost function.

arxiv情報

著者 Thomas Chen,Patricia Muñoz Ewald
発行日 2023-09-19 14:20:55+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: 57R70, 62M45, cs.AI, cs.LG, math-ph, math.MP, math.OC, stat.ML パーマリンク