Evaluation of uncertainty estimations for Gaussian process regression based machine learning interatomic potentials


機械学習原子間ポテンシャル (MLIP) の不確実性推定は、モデルの誤差を定量化し、アクティブ ラーニング戦略で有益なトレーニング サンプルを特定するために重要です。
この研究では、予測 GPR 標準偏差とアンサンブル ベースの不確実性を含む、ガウス過程回帰 (GPR) ベースの MLIP の不確実性推定を評価します。
これは、キャリブレーションの観点と、アクティブ ラーニング スキームにおけるモデルのパフォーマンスへの影響の観点から行われます。
分子のポテンシャル エネルギー面と励起エネルギーを予測するための入力として、クーロン表現と原子位​​置の滑らかなオーバーラップ (SOAP) 表現を使用した GPR モデルを考慮します。
対照的に、GPR 標準偏差は良好な全体的な校正を示していますが、不確実性によって予測をグループ化すると、不確実性の高い予測に対して系統的な偏りが観察されます。
したがって、GPR 標準偏差は、バイアスと誤差が大きい予測を特定するのに役立ちますが、さらなる知識がなければ、潜在的な誤差範囲の定量的な尺度として解釈すべきではありません。
固定構成空間から最も高い GPR 標準偏差を持つサンプルを選択すると、固定データセットで表される構成空間の境界を過度に強調するモデルが得られます。


Uncertainty estimations for machine learning interatomic potentials (MLIPs) are crucial for quantifying model error and identifying informative training samples in active learning strategies. In this study, we evaluate uncertainty estimations of Gaussian process regression (GPR)-based MLIPs, including the predictive GPR standard deviation and ensemble-based uncertainties. We do this in terms of calibration and in terms of impact on model performance in an active learning scheme. We consider GPR models with Coulomb and Smooth Overlap of Atomic Positions (SOAP) representations as inputs to predict potential energy surfaces and excitation energies of molecules. Regarding calibration, we find that ensemble-based uncertainty estimations show already poor global calibration (e.g., averaged over the whole test set). In contrast, the GPR standard deviation shows good global calibration, but when grouping predictions by their uncertainty, we observe a systematical bias for predictions with high uncertainty. Although an increasing uncertainty correlates with an increasing bias, the bias is not captured quantitatively by the uncertainty. Therefore, the GPR standard deviation can be useful to identify predictions with a high bias and error but, without further knowledge, should not be interpreted as a quantitative measure for a potential error range. Selecting the samples with the highest GPR standard deviation from a fixed configuration space leads to a model that overemphasizes the borders of the configuration space represented in the fixed dataset. This may result in worse performance in more densely sampled areas but better generalization for extrapolation tasks.


著者 Matthias Holzenkamp,Dongyu Lyu,Ulrich Kleinekathöfer,Peter Zaspel
発行日 2025-01-09 14:11:34+00:00
arxivサイト arxiv_id(pdf)

カテゴリー: cs.LG, physics.chem-ph, physics.comp-ph, q-bio.BM パーマリンク