Weight fluctuations in (deep) linear neural networks and a derivation of the inverse-variance flatness relation

要約

合成ガウス データの確率的勾配降下法 (SGD) の連続限界内で、単層および 2 層の線形過小パラメータ化ニューラル ネットワークの定常 (遅延) トレーニング レジームを調査します。
弱く過小パラメータ化された領域の単層ネットワークの場合、ノイズ共分散行列のスペクトルはヘッセ行列から著しく逸脱します。これは、SGD ダイナミクスの詳細なバランスが崩れていることに起因すると考えられます。
この場合、重量変動は一般に異方性ですが、等方性損失の影響を受けます。
2 層ネットワークの場合、各層の重みの確率的ダイナミクスを取得し、関連する定常共分散を分析します。
我々は、層間結合が重量変動の異方性の新たな原因であることを特定しました。
単層の場合とは対照的に、重量の変動には異方性損失が生じ、その平坦性は変動の分散に反比例します。
これにより、深層線形ニューラル ネットワークのモデルで最近観察された逆分散平坦性関係の解析的導出を提供します。

要約(オリジナル)

We investigate the stationary (late-time) training regime of single- and two-layer linear underparameterized neural networks within the continuum limit of stochastic gradient descent (SGD) for synthetic Gaussian data. In the case of a single-layer network in the weakly underparameterized regime, the spectrum of the noise covariance matrix deviates notably from the Hessian, which can be attributed to the broken detailed balance of SGD dynamics. The weight fluctuations are in this case generally anisotropic, but are subject to an isotropic loss. For a two-layer network, we obtain the stochastic dynamics of the weights in each layer and analyze the associated stationary covariances. We identify the inter-layer coupling as a new source of anisotropy for the weight fluctuations. In contrast to the single-layer case, the weight fluctuations experience an anisotropic loss, the flatness of which is inversely related to the fluctuation variance. We thereby provide an analytical derivation of the recently observed inverse variance-flatness relation in a model of a deep linear neural network.

arxiv情報

著者 Markus Gross,Arne P. Raulf,Christoph Räth
発行日 2024-03-15 16:13:46+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cond-mat.dis-nn, cond-mat.stat-mech, cs.LG パーマリンク