Global Convergence of Adjoint-Optimized Neural PDEs

要約

最近、多くのエンジニアリングおよび科学的分野は、ニューラルネットワークを使用した部分微分方程式(PDE)のモデリング用語に関心を持っています。
ニューラルネットワークパラメーターの関数である結果として得られるニューラルネットワークPDEモデルは、勾配降下を使用してPDEを最適化することにより利用可能なデータにキャリブレーションできます。ここでは、勾配が隣接PDEを解くことにより計算効率的な方法で評価されます。
これらのニューラルネットワークPDEモデルは、科学機械学習の重要な研究分野として浮上しています。
この論文では、隠されたユニットとトレーニング時間の両方が無限になる傾向がある制限で、ニューラルネットワークPDEモデルをトレーニングするための補助勾配降下最適化方法の収束を研究します。
具体的には、ソース用語に埋め込まれたニューラルネットワークを備えた非線形放物線PDEの一般的なクラスの場合、標的データ(すなわち、グローバルミニマイザー)への訓練されたニューラルネットワークPDEソリューションの収束を証明します。
The global convergence proof poses a unique mathematical challenge that is not encountered in finite-dimensional neural network convergence analyses due to (1) the neural network training dynamics involving a non-local neural network kernel operator in the infinite-width hidden layer limit where the kernel lacks a spectral gap for its eigenvalues and (2) the nonlinearity of the limit PDE system, which leads to a
無限の最適化の問題は、無限の幅の隠れ層の制限であっても(最適化の問題が大きなニューロン制限で凸になる典型的なニューラルネットワークトレーニングの場合とは異なり)。
理論的な結果は、数値研究によって示され、経験的に検証されています。

要約(オリジナル)

Many engineering and scientific fields have recently become interested in modeling terms in partial differential equations (PDEs) with neural networks. The resulting neural-network PDE model, being a function of the neural network parameters, can be calibrated to available data by optimizing over the PDE using gradient descent, where the gradient is evaluated in a computationally efficient manner by solving an adjoint PDE. These neural-network PDE models have emerged as an important research area in scientific machine learning. In this paper, we study the convergence of the adjoint gradient descent optimization method for training neural-network PDE models in the limit where both the number of hidden units and the training time tend to infinity. Specifically, for a general class of nonlinear parabolic PDEs with a neural network embedded in the source term, we prove convergence of the trained neural-network PDE solution to the target data (i.e., a global minimizer). The global convergence proof poses a unique mathematical challenge that is not encountered in finite-dimensional neural network convergence analyses due to (1) the neural network training dynamics involving a non-local neural network kernel operator in the infinite-width hidden layer limit where the kernel lacks a spectral gap for its eigenvalues and (2) the nonlinearity of the limit PDE system, which leads to a non-convex optimization problem, even in the infinite-width hidden layer limit (unlike in typical neual network training cases where the optimization problem becomes convex in the large neuron limit). The theoretical results are illustrated and empirically validated by numerical studies.

arxiv情報

著者 Konstantin Riedl,Justin Sirignano,Konstantinos Spiliopoulos
発行日 2025-06-16 16:00:00+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: 35K55, 35Q93, 49M41, 68T07, 90C26, cs.LG, cs.NA, math.AP, math.NA, math.OC パーマリンク