Convergence analysis of wide shallow neural operators within the framework of Neural Tangent Kernel

要約

ニューラル演算子は、関数のバナッハ空間間の演算子マッピングを近似することを目的としており、科学計算の分野で多くの成功を収めています。
物理情報に基づくニューラル ネットワーク (PINN)、ディープ リッツ ​​メソッド (DRM) などの特定の深層学習ベースのソルバーと比較して、ニューラル オペレーターは偏微分方程式 (PDE) のクラスを解くことができます。
ニューラル オペレーターの近似誤差と汎化誤差を分析するために多くの研究が行われてきましたが、トレーニング エラーに関する分析はまだ不足しています。
この研究では、ニューラル タンジェント カーネル (NTK) のフレームワーク内で広く浅いニューラル オペレーターの勾配降下の収束解析を実行します。
中心的なアイデアは、オーバーパラメータ化とランダムな初期化を組み合わせることで、すべての反復を通じて各重みベクトルが初期化付近に留まり、勾配降下法の線形収束が得られるという事実に基づいています。
この研究では、オーバーパラメータ化の設定の下で、連続時間か離散時間かに関係なく、勾配降下法が大域最小値を見つけることができることを実証します。
最後に、物理学に基づいた浅いニューラル オペレーターのケースについて簡単に説明します。

要約(オリジナル)

Neural operators are aiming at approximating operators mapping between Banach spaces of functions, achieving much success in the field of scientific computing. Compared to certain deep learning-based solvers, such as Physics-Informed Neural Networks (PINNs), Deep Ritz Method (DRM), neural operators can solve a class of Partial Differential Equations (PDEs). Although much work has been done to analyze the approximation and generalization error of neural operators, there is still a lack of analysis on their training error. In this work, we conduct the convergence analysis of gradient descent for the wide shallow neural operators within the framework of Neural Tangent Kernel (NTK). The core idea lies on the fact that over-parameterization and random initialization together ensure that each weight vector remains near its initialization throughout all iterations, yielding the linear convergence of gradient descent. In this work, we demonstrate that under the setting of over-parametrization, gradient descent can find the global minimum regardless of whether it is in continuous time or discrete time. Finally, we briefly discuss the case of physics-informed shallow neural operators.

arxiv情報

著者 Xianliang Xu,Ye Li,Zhongyi Huang
発行日 2024-12-27 11:57:40+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.DS, cs.LG, math.OC パーマリンク