Provable Acceleration of Nesterov’s Accelerated Gradient Method over Heavy Ball Method in Training Over-Parameterized Neural Networks

要約

一次勾配法は、そのシンプルさと効率のため、ニューラル ネットワークのトレーニングに広く使用されています。
ニューラル ネットワークの最適化問題は非凸ですが、最近の研究では、パラメーター数がトレーニングの数よりも大幅に多い、オーバーパラメーター化されたニューラル ネットワークのトレーニング中に、一次法がグローバル最小値を達成できることが証明されました。
インスタンス。
ヘビー ボール (HB) 法やネステロフの加速勾配 (NAG) 法などの運動量法は、加速された収束を特徴とする一次勾配法の主力です。
実際には、NAG は HB よりも優れたパフォーマンスを示すことがよくあります。
しかし、現在の理論研究では、ニューラル ネットワークのトレーニングにおける収束の違いを区別できません。
このギャップを埋めるために、過剰パラメータ化とランダム初期化の下での 2 層 ReLU ニューラル ネットワークのトレーニング問題を検討します。
高解像度の動的システムとニューラル タンジェント カーネル (NTK) 理論を活用することで、私たちの結果は、HB と NAG の両方の収束率のより厳しい上限を確立するだけでなく、ニューラル トレーニングにおける HB に対する NAG の加速に対する最初の理論的保証も提供します。
ネットワーク。
最後に、3 つのベンチマーク データセットで理論的結果を検証します。

要約(オリジナル)

Due to its simplicity and efficiency, the first-order gradient method has been extensively employed in training neural networks. Although the optimization problem of the neural network is non-convex, recent research has proved that the first-order method is capable of attaining a global minimum during training over-parameterized neural networks, where the number of parameters is significantly larger than that of training instances. Momentum methods, including the heavy ball (HB) method and Nesterov’s accelerated gradient (NAG) method, are the workhorse of first-order gradient methods owning to their accelerated convergence. In practice, NAG often exhibits superior performance than HB. However, current theoretical works fail to distinguish their convergence difference in training neural networks. To fill this gap, we consider the training problem of the two-layer ReLU neural network under over-parameterization and random initialization. Leveraging high-resolution dynamical systems and neural tangent kernel (NTK) theory, our result not only establishes tighter upper bounds of the convergence rate for both HB and NAG, but also provides the first theoretical guarantee for the acceleration of NAG over HB in training neural networks. Finally, we validate our theoretical results on three benchmark datasets.

arxiv情報

著者 Xin Liu,Wei Tao,Wei Li,Dazhi Zhan,Jun Wang,Zhisong Pan
発行日 2024-05-08 15:34:45+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, math.OC パーマリンク