要約
勾配降下法 (GD) や確率的勾配降下法 (SGD) などの一次法は、ニューラル ネットワークのトレーニングに効果的であることが証明されています。
オーバーパラメータ化のコンテキストでは、ランダムに初期化された (確率的) 勾配降下法が二次損失関数の線形収束率で全体的に最適な解に収束することを実証する一連の作業があります。
ただし、2 層ニューラル ネットワークをトレーニングするための GD の学習率は、サンプル サイズとグラム行列への依存性が低いため、トレーニング プロセスが遅くなります。
この論文では、$L^2$ 回帰問題の学習率が $\mathcal{O}(\lambda_0/n^2)$ から $\mathcal{O}(1/\ まで改善できることを示します
|\bm{H}^{\infty}\|_2)$、これは、GD の方が実際に収束速度が速いことを意味します。
さらに、この方法を 2 層の物理情報に基づいたニューラル ネットワーク (PINN) のトレーニングにおける GD に一般化し、学習率の同様の向上を示しました。
改善された学習率はグラム行列にわずかに依存しますが、グラム行列の固有値が未知であるため、実際には学習率を十分に小さく設定する必要があります。
さらに重要なのは、収束率はグラム行列の最小固有値に関連付けられているため、収束が遅くなる可能性があります。
この研究では、2 層 PINN のトレーニングにおける自然勾配降下法 (NGD) の収束解析を提供し、学習率が $\mathcal{O}(1)$ になる可能性があることを示し、この率では収束率は次のようになります。
グラム行列から独立しています。
要約(オリジナル)
First-order methods, such as gradient descent (GD) and stochastic gradient descent (SGD), have been proven effective in training neural networks. In the context of over-parameterization, there is a line of work demonstrating that randomly initialized (stochastic) gradient descent converges to a globally optimal solution at a linear convergence rate for the quadratic loss function. However, the learning rate of GD for training two-layer neural networks exhibits poor dependence on the sample size and the Gram matrix, leading to a slow training process. In this paper, we show that for the $L^2$ regression problems, the learning rate can be improved from $\mathcal{O}(\lambda_0/n^2)$ to $\mathcal{O}(1/\|\bm{H}^{\infty}\|_2)$, which implies that GD actually enjoys a faster convergence rate. Furthermore, we generalize the method to GD in training two-layer Physics-Informed Neural Networks (PINNs), showing a similar improvement for the learning rate. Although the improved learning rate has a mild dependence on the Gram matrix, we still need to set it small enough in practice due to the unknown eigenvalues of the Gram matrix. More importantly, the convergence rate is tied to the least eigenvalue of the Gram matrix, which can lead to slow convergence. In this work, we provide the convergence analysis of natural gradient descent (NGD) in training two-layer PINNs, demonstrating that the learning rate can be $\mathcal{O}(1)$, and at this rate, the convergence rate is independent of the Gram matrix.
arxiv情報
著者 | Xianliang Xu,Ting Du,Wang Kong,Ye Li,Zhongyi Huang |
発行日 | 2024-08-06 12:36:57+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google