High-dimensional SGD aligns with emerging outlier eigenspaces

要約

私たちは、確率的勾配降下法 (SGD) と経験的ヘッセ行列および勾配行列のスペクトルを介したトレーニング ダイナミクスの共同進化を厳密に研究しています。
多クラスの高次元混合と 1 層または 2 層のニューラル ネットワークに対する 2 つの標準分類タスクにおいて、SGD 軌道がヘッセ行列および勾配行列の出現する低ランク外れ値固有空間と急速に一致することを証明します。
さらに、多層設定では、この位置合わせは層ごとに行われ、最終層の外れ値固有空間はトレーニングの過程で進化し、SGD が次善の分類器に収束するとランクの欠陥が現れます。
これは、オーバーパラメータ化されたネットワークでのトレーニングの過程でのヘッセ行列と情報行列のスペクトルに関する過去 10 年間の広範な数値研究から得られた豊富な予測の一部を確立します。

要約(オリジナル)

We rigorously study the joint evolution of training dynamics via stochastic gradient descent (SGD) and the spectra of empirical Hessian and gradient matrices. We prove that in two canonical classification tasks for multi-class high-dimensional mixtures and either 1 or 2-layer neural networks, the SGD trajectory rapidly aligns with emerging low-rank outlier eigenspaces of the Hessian and gradient matrices. Moreover, in multi-layer settings this alignment occurs per layer, with the final layer’s outlier eigenspace evolving over the course of training, and exhibiting rank deficiency when the SGD converges to sub-optimal classifiers. This establishes some of the rich predictions that have arisen from extensive numerical studies in the last decade about the spectra of Hessian and information matrices over the course of training in overparametrized networks.

arxiv情報

著者 Gerard Ben Arous,Reza Gheissari,Jiaoyang Huang,Aukosh Jagannath
発行日 2023-10-04 17:53:53+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, math.PR, stat.ML パーマリンク