要約
ニューラル ネットワークのヘッセ行列の最大固有値、つまりシャープネスは、最適化ダイナミクスを理解するための重要な量です。
この論文では、単変量回帰に対する深い線形ネットワークの鋭さを研究します。
ミニマイザーのシャープネスは任意に大きくできますが、任意に小さくすることはできません。
実際に、ミニマイザーの鮮明さの下限を示します。これは、深さとともに線形に増加します。
次に、学習率が消失する勾配降下の限界である、勾配流によって見つかったミニマイザーの特性を研究します。
平坦な最小値に向かう暗黙的な正則化を示します。つまり、ミニマイザーの鋭さは、下限の定数倍に過ぎません。
定数はデータ共分散行列の条件数に依存しますが、幅や深さには依存しません。
この結果は、小規模な初期化と残留初期化の両方について証明されています。
どちらの場合も、独立した関心の結果が示されています。
小規模な初期化では、学習された重み行列がほぼランク 1 であり、それらの特異ベクトルが揃っていることを示します。
残差初期化の場合、残差ネットワークのガウス初期化に対する勾配フローの収束が証明されます。
数値実験は私たちの結果を示し、それらを非消失学習率の勾配降下法に結び付けます。
要約(オリジナル)
The largest eigenvalue of the Hessian, or sharpness, of neural networks is a key quantity to understand their optimization dynamics. In this paper, we study the sharpness of deep linear networks for univariate regression. Minimizers can have arbitrarily large sharpness, but not an arbitrarily small one. Indeed, we show a lower bound on the sharpness of minimizers, which grows linearly with depth. We then study the properties of the minimizer found by gradient flow, which is the limit of gradient descent with vanishing learning rate. We show an implicit regularization towards flat minima: the sharpness of the minimizer is no more than a constant times the lower bound. The constant depends on the condition number of the data covariance matrix, but not on width or depth. This result is proven both for a small-scale initialization and a residual initialization. Results of independent interest are shown in both cases. For small-scale initialization, we show that the learned weight matrices are approximately rank-one and that their singular vectors align. For residual initialization, convergence of the gradient flow for a Gaussian initialization of the residual network is proven. Numerical experiments illustrate our results and connect them to gradient descent with non-vanishing learning rate.
arxiv情報
著者 | Pierre Marion,Lénaïc Chizat |
発行日 | 2024-10-28 17:10:57+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google