Alpha-VI DeepONet: A prior-robust variational Bayesian approach for enhancing DeepONets with uncertainty quantification

要約

不確実性を定量化しながら複雑な演算子を学習するために、R’enyiの$α$-divergenceを用いた一般化変分推論(GVI)を組み込んだ新しいディープ演算子ネットワーク(DeepONet)フレームワークを紹介する。ベイジアンニューラルネットワークをブランチネットワークとトランクネットワークの構成要素として組み込むことで、我々のフレームワークはDeepONetに不確実性の定量化を付与する。標準的な変分推論で一般的に使用されるカルバック・ライブラー発散(KLD)の代わりに、R’enyiの$α$発散を使用することで、変分ベイズDeepONetで一般的な事前指定ミスに関連する問題を緩和する。このアプローチにより、柔軟性と頑健性が向上する。変分目的関数を修正することで、平均二乗誤差を最小化し、テストセットにおける負の対数尤度を改善するという点で優れた結果が得られることを実証する。我々のフレームワークの有効性は、様々な機械システムで検証され、予測精度と不確かさの定量化において、決定論的および標準的なKLDベースのVI DeepONetsの両方を凌駕する。ロバスト性の程度を制御するハイパーパラメータ$α$は、特定の問題に対して性能を最適化するように調整できる。このアプローチを、重力振り子、移流拡散、拡散反応系を含む、様々な力学問題に適用する。我々の発見は、$α-VI DeepONetが、データ駆動型演算子学習の分野を発展させ、工学と科学の領域で応用できる可能性を強調する。

要約(オリジナル)

We introduce a novel deep operator network (DeepONet) framework that incorporates generalised variational inference (GVI) using R\’enyi’s $\alpha$-divergence to learn complex operators while quantifying uncertainty. By incorporating Bayesian neural networks as the building blocks for the branch and trunk networks, our framework endows DeepONet with uncertainty quantification. The use of R\’enyi’s $\alpha$-divergence, instead of the Kullback-Leibler divergence (KLD), commonly used in standard variational inference, mitigates issues related to prior misspecification that are prevalent in Variational Bayesian DeepONets. This approach offers enhanced flexibility and robustness. We demonstrate that modifying the variational objective function yields superior results in terms of minimising the mean squared error and improving the negative log-likelihood on the test set. Our framework’s efficacy is validated across various mechanical systems, where it outperforms both deterministic and standard KLD-based VI DeepONets in predictive accuracy and uncertainty quantification. The hyperparameter $\alpha$, which controls the degree of robustness, can be tuned to optimise performance for specific problems. We apply this approach to a range of mechanics problems, including gravity pendulum, advection-diffusion, and diffusion-reaction systems. Our findings underscore the potential of $\alpha$-VI DeepONet to advance the field of data-driven operator learning and its applications in engineering and scientific domains.

arxiv情報

著者 Soban Nasir Lone,Subhayan De,Rajdip Nayek
発行日 2024-08-01 16:22:03+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.LG, stat.ML パーマリンク