要約
科学機械学習のための微分可能プログラミング (SciML) は、第一原理物理学に由来する PDE (NeuralPDE と呼ばれることが多い) 内にニューラル ネットワークを直接埋め込むため、最近大きな関心と成功を収めています。
したがって、コミュニティでは、NeuralPDE はブラック ボックス モデルよりも信頼でき、一般化可能であるという仮定が広く広まっています。
ただし、他の SciML モデルと同様に、微分可能プログラミングは主に、トレーニングの「グラウンド トゥルース」として高品質の PDE シミュレーションに依存します。
ただし、数学によれば、これらは真の物理学の離散的な数値近似にすぎません。
したがって、私たちは次のように問います。NeuralPDE と微分可能プログラミング モデルは、PDE シミュレーションでトレーニングされたものであり、私たちが考えているほど物理的に解釈可能ですか?
この研究では、数値解析、実験、モデル ヤコビアンの解析から確立されたアイデアを使用して、これらの質問に答えることを厳密に試みます。
私たちの研究は、NeuralPDE が空間導関数の離散化されたテイラー級数打ち切り誤差から生じるシミュレーション トレーニング データ内のアーティファクトを学習することを示しています。
さらに、NeuralPDE モデルには系統的に偏りがあり、その一般化機能は、トレーニング データセットと NeuralPDE における数値散逸と切り捨て誤差の偶然の相互作用によって可能になる可能性が高く、実際のアプリケーションではめったに起こりません。
この偏りは比較的アクセスしやすい 1 次元方程式でも顕著に現れ、複雑で高次元の現実世界の偏微分方程式や基礎モデルのデータセットの整合性における微分可能プログラミングの正確性について懸念が生じます。
さらに、初期条件が偏微分方程式の初期値問題における切り捨て誤差を制限し、それによって外挿に制限が生じることが観察されました。
最後に、モデルの重みの固有分析によって、モデルが分布外テストに対して不正確になるかどうかを事前に示すことができることを示します。
要約(オリジナル)
Differentiable Programming for scientific machine learning (SciML) has recently seen considerable interest and success, as it directly embeds neural networks inside PDEs, often called as NeuralPDEs, derived from first principle physics. Therefore, there is a widespread assumption in the community that NeuralPDEs are more trustworthy and generalizable than black box models. However, like any SciML model, differentiable programming relies predominantly on high-quality PDE simulations as ‘ground truth’ for training. However, mathematics dictates that these are only discrete numerical approximations of the true physics. Therefore, we ask: Are NeuralPDEs and differentiable programming models trained on PDE simulations as physically interpretable as we think? In this work, we rigorously attempt to answer these questions, using established ideas from numerical analysis, experiments, and analysis of model Jacobians. Our study shows that NeuralPDEs learn the artifacts in the simulation training data arising from the discretized Taylor Series truncation error of the spatial derivatives. Additionally, NeuralPDE models are systematically biased, and their generalization capability is likely enabled by a fortuitous interplay of numerical dissipation and truncation error in the training dataset and NeuralPDE, which seldom happens in practical applications. This bias manifests aggressively even in relatively accessible 1-D equations, raising concerns about the veracity of differentiable programming on complex, high-dimensional, real-world PDEs, and in dataset integrity of foundation models. Further, we observe that the initial condition constrains the truncation error in initial-value problems in PDEs, thereby exerting limitations to extrapolation. Finally, we demonstrate that an eigenanalysis of model weights can indicate a priori if the model will be inaccurate for out-of-distribution testing.
arxiv情報
著者 | Arvind Mohan,Ashesh Chattopadhyay,Jonah Miller |
発行日 | 2024-11-22 18:04:46+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google