Geometric structure of Deep Learning networks and construction of global ${\mathcal L}^2$ minimizers

要約

この論文では、パラメータ化されていない深層学習 (DL) ネットワークにおける $\mathcal{L}^2$ コスト関数のローカルおよびグローバル最小化関数を明示的に決定します。
私たちの主な目標は、その幾何学的構造と特性を明らかにすることです。
これは、この作業のどの時点でも勾配降下フローを呼び出すことなく、直接的な構築によって実現されます。
特に $L$ 隠れ層、ReLU ランプ活性化関数、$\mathcal{L}^2$ Schatten クラス (または Hilbert-Schmidt) コスト関数、入出力空間 $\mathbb{R}^Q$ を考慮します。
等しい次元 $Q\geq1$ 、および $\mathbb{R}^{Q}$ にも隠れ層が定義されています。
トレーニング入力は十分にクラスター化されていると想定されます。
トレーニング入力サイズ $N$ は任意に大きくすることができます。したがって、パラメータ化が不十分な領域を検討しています。
より一般的な設定は今後の作業に残されています。
$L\geq Q$ の場合のコスト関数の大域最小値に対する明示的なミニマイザー族を構築し、これが縮退していることを示します。
さらに、コスト関数の $2^Q-1$ の個別の縮退極小値のセットを決定します。
ここで示すコンテキストでは、DL ネットワークの隠れ層の連結は、ノイズ対信号比を最小限に抑えることでトレーニング入力を「キュレーション」する {\em トランケーション マップ} の再帰的アプリケーションとして再解釈されます。

要約(オリジナル)

In this paper, we explicitly determine local and global minimizers of the $\mathcal{L}^2$ cost function in underparametrized Deep Learning (DL) networks; our main goal is to shed light on their geometric structure and properties. We accomplish this by a direct construction, without invoking the gradient descent flow at any point of this work. We specifically consider $L$ hidden layers, a ReLU ramp activation function, an $\mathcal{L}^2$ Schatten class (or Hilbert-Schmidt) cost function, input and output spaces $\mathbb{R}^Q$ with equal dimension $Q\geq1$, and hidden layers also defined on $\mathbb{R}^{Q}$; the training inputs are assumed to be sufficiently clustered. The training input size $N$ can be arbitrarily large – thus, we are considering the underparametrized regime. More general settings are left to future work. We construct an explicit family of minimizers for the global minimum of the cost function in the case $L\geq Q$, which we show to be degenerate. Moreover, we determine a set of $2^Q-1$ distinct degenerate local minima of the cost function. In the context presented here, the concatenation of hidden layers of the DL network is reinterpreted as a recursive application of a {\em truncation map} which ‘curates’ the training inputs by minimizing their noise to signal ratio.

arxiv情報

著者 Thomas Chen,Patricia Muñoz Ewald
発行日 2024-03-14 16:29:56+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: 57R70, 62M45, cs.AI, cs.LG, math-ph, math.MP, math.OC, stat.ML パーマリンク