Dual Natural Gradient Descent for Scalable Training of Physics-Informed Neural Networks

要約

自然勾配の方法は、物理学に基づいたニューラルネットワーク(PINN)のトレーニングを著しく加速しますが、ガウス – ネストンの更新はパラメータースペースで解決する必要があります。
代わりに、まったく同じステップを、サイズ$ m = \ sum _ {\ gamma} n _ {\ gamma} d _ {\ gamma} $の一般的に小さな残留空間で処方できることを示します。
$ d _ {\ gamma} $。
この洞察に基づいて、\ textit {dual urather Gradient降下}(d-ngd)を紹介します。
D-NGDはガウスを計算し、残留空間でのネストンステップを計算し、無視できる追加コストで測地線加速修正でそれを増強し、控えめな$ m $の密な直接ソルバーと、より大きな$ m $のニスストロム環境のコンジュゲート勾配ソルバーの両方を提供します。
実験的には、D-NGDは最大1280万パラメーターを持つネットワークへの2次PINNの最適化をスケーリングし、1次のメソッド(ADAM、SGD)および準ニュートンメソッドよりも1〜3桁低い最終誤差$ l^2 $を提供します。

要約(オリジナル)

Natural-gradient methods markedly accelerate the training of Physics-Informed Neural Networks (PINNs), yet their Gauss–Newton update must be solved in the parameter space, incurring a prohibitive $O(n^3)$ time complexity, where $n$ is the number of network trainable weights. We show that exactly the same step can instead be formulated in a generally smaller residual space of size $m = \sum_{\gamma} N_{\gamma} d_{\gamma}$, where each residual class $\gamma$ (e.g. PDE interior, boundary, initial data) contributes $N_{\gamma}$ collocation points of output dimension $d_{\gamma}$. Building on this insight, we introduce \textit{Dual Natural Gradient Descent} (D-NGD). D-NGD computes the Gauss–Newton step in residual space, augments it with a geodesic-acceleration correction at negligible extra cost, and provides both a dense direct solver for modest $m$ and a Nystrom-preconditioned conjugate-gradient solver for larger $m$. Experimentally, D-NGD scales second-order PINN optimization to networks with up to 12.8 million parameters, delivers one- to three-order-of-magnitude lower final error $L^2$ than first-order methods (Adam, SGD) and quasi-Newton methods, and — crucially — enables natural-gradient training of PINNs at this scale on a single GPU.

arxiv情報

著者 Anas Jnini,Flavio Vella
発行日 2025-05-27 16:27:23+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, math.OC パーマリンク