Optimal design of experiments in the context of machine-learning inter-atomic potentials: improving the efficiency and transferability of kernel based methods

要約

原子相互作用のデータ駆動型の機械学習 (ML) モデルは、多くの場合、原子配列の微妙な側面をエネルギーと力の予測に関連付けることができる柔軟な非物理関数に基づいています。
結果として、これらの可能性はトレーニング データ (通常、いわゆる ab initio シミュレーションの結果) と同じくらい優れており、モデルが十分に正確で、信頼性が高く、転送可能になるために十分な情報があることを確認する必要があります。
主な課題は、化学環境の記述子が、明確に定義された連続測定基準を持たない、まばらな高次元オブジェクトであることが多いという事実に起因しています。
したがって、トレーニング例を選択するアドホックな方法が無差別である可能性はかなり低く、トレーニングセットとテストセットを生成するために同じ狭くて偏ったサンプリングが使用される確証バイアスの罠に陥りやすくなります。

私たちは、実験の統計的計画と最適設計という古典的な概念が、比較的低い計算コストでこのような問題を軽減するのに役立つことを実証します。
私たちが調査するこの方法の主な特徴は、データの有益性 (トレーニング サンプルの追加/交換によってモデルをどの程度改善できるか) を評価し、データを取得する前に現在のセットでトレーニングが可能かどうかを検証できることです。
参照エネルギーと力 — いわゆるオフライン アプローチ。
言い換えれば、私たちは実装が簡単で、ハイパフォーマンス コンピューティング (HPC) への自動アクセスを伴う高度なフレームワークを必要としないアプローチに焦点を当てています。

要約(オリジナル)

Data-driven, machine learning (ML) models of atomistic interactions are often based on flexible and non-physical functions that can relate nuanced aspects of atomic arrangements into predictions of energies and forces. As a result, these potentials are as good as the training data (usually results of so-called ab initio simulations) and we need to make sure that we have enough information for a model to become sufficiently accurate, reliable and transferable. The main challenge stems from the fact that descriptors of chemical environments are often sparse high-dimensional objects without a well-defined continuous metric. Therefore, it is rather unlikely that any ad hoc method of choosing training examples will be indiscriminate, and it will be easy to fall into the trap of confirmation bias, where the same narrow and biased sampling is used to generate train- and test- sets. We will demonstrate that classical concepts of statistical planning of experiments and optimal design can help to mitigate such problems at a relatively low computational cost. The key feature of the method we will investigate is that they allow us to assess the informativeness of data (how much we can improve the model by adding/swapping a training example) and verify if the training is feasible with the current set before obtaining any reference energies and forces — a so-called off-line approach. In other words, we are focusing on an approach that is easy to implement and doesn’t require sophisticated frameworks that involve automated access to high-performance computational (HPC).

arxiv情報

著者 Bartosz Barzdajn,Christopher P. Race
発行日 2024-05-14 14:14:23+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cond-mat.mtrl-sci, cs.LG パーマリンク