要約
スムーズな活性化関数でニューラルネットワークをトレーニングするためのGauss-Newtonダイナミクスの収束を分析します。
パラメーター化されたレジームでは、ガウス・ニュートン勾配の流れは、ユークリッド出力空間の低次元の滑らかな埋め込みサブマニホールドにリーマニアの勾配流を誘導します。
Riemannianの最適化からのツールを使用して、グラムマトリックスの条件付けとは無関係の\ emponsical {emponential速度}での最適なクラス内予測因子へのリーマン勾配の流れのnems {last-itate}収束を証明します。
さらに、ニューラルネットワークスケーリング係数の重要な影響と収束挙動の初期化を特徴付けます。
オーバーパラメーター化されたレジームでは、適切に選択された減衰スケジュールを備えたLevenberg-Marquardtダイナミクスは、パラメーター化された制度に類似して、潜在的に条件付けされていない神経接線カーネルマトリックスにもかかわらず、収束率が速いことを示します。
これらの発見は、特にカーネルとグラムのマトリックスが特異な値を持っている条件付きの問題のない問題において、近接化レジームにおいて、ニューラルネットワークを効率的に最適化するためのGauss-Newton方法の可能性を示しています。
要約(オリジナル)
We analyze the convergence of Gauss-Newton dynamics for training neural networks with smooth activation functions. In the underparameterized regime, the Gauss-Newton gradient flow induces a Riemannian gradient flow on a low-dimensional, smooth, embedded submanifold of the Euclidean output space. Using tools from Riemannian optimization, we prove \emph{last-iterate} convergence of the Riemannian gradient flow to the optimal in-class predictor at an \emph{exponential rate} that is independent of the conditioning of the Gram matrix, \emph{without} requiring explicit regularization. We further characterize the critical impacts of the neural network scaling factor and the initialization on the convergence behavior. In the overparameterized regime, we show that the Levenberg-Marquardt dynamics with an appropriately chosen damping schedule yields fast convergence rate despite potentially ill-conditioned neural tangent kernel matrices, analogous to the underparameterized regime. These findings demonstrate the potential of Gauss-Newton methods for efficiently optimizing neural networks in the near-initialization regime, particularly in ill-conditioned problems where kernel and Gram matrices have small singular values.
arxiv情報
著者 | Semih Cayci |
発行日 | 2025-06-06 15:33:42+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google