Ensemble Knowledge Distillation for Machine Learning Interatomic Potentials

要約

機械学習間原子間ポテンシャル(MLIP)は、原子論的シミュレーションと分子特性予測を加速するための有望なツールです。
MLIPの品質は、利用可能なトレーニングデータの量と、そのデータを生成するために使用される理論の量子化学(QC)レベルに強く依存します。
結合クラスターなどの高忠実度QCメソッドで生成されたデータセットは、通常、小分子に制限されており、エネルギー勾配が欠落している可能性があります。
この量のデータが限られているため、優れたMLIPモデルをトレーニングすることはしばしば困難です。
エネルギーのみのデータセットまでトレーニングされたときにMLIP精度を改善するためのアンサンブルナレッジ蒸留(EKD)方法を提示します。
EKDアプローチでは、最初に、複数の教師モデルがQCエネルギーにトレーニングされ、次にデータセット内のすべての構成の原子力を生成するために使用されます。
次に、学生のMLIPは、QCエネルギーと教師モデルによって生成されたアンサンブル平均力の両方にトレーニングされます。
このワークフローは、組み合わせたクラスターレベルの理論で計算された構成エネルギーを備えた有機分子で構成されるANI-1CCXデータセットに適用します。
結果として得られる学生MLIPは、サンプル外のCOMP6ベンチマークで新しい最先端の精度を達成し、分子動力学シミュレーションの安定性が向上します。
MLIPのEKDアプローチは、化学、生体分子、材料の科学シミュレーションに広く適用されます。

要約(オリジナル)

Machine learning interatomic potentials (MLIPs) are a promising tool to accelerate atomistic simulations and molecular property prediction. The quality of MLIPs strongly depends on the quantity of available training data as well as the quantum chemistry (QC) level of theory used to generate that data. Datasets generated with high-fidelity QC methods, such as coupled cluster, are typically restricted to small molecules and may be missing energy gradients. With this limited quantity of data, it is often difficult to train good MLIP models. We present an ensemble knowledge distillation (EKD) method to improve MLIP accuracy when trained to energy-only datasets. In our EKD approach, first, multiple teacher models are trained to QC energies and then used to generate atomic forces for all configurations in the dataset. Next, a student MLIP is trained to both QC energies and to ensemble-averaged forces generated by the teacher models. We apply this workflow on the ANI-1ccx dataset which consists of organic molecules with configuration energies computed at the coupled cluster level of theory. The resulting student MLIPs achieve new state-of-the-art accuracy on the out-of-sample COMP6 benchmark and improved stability for molecular dynamics simulations. The EKD approach for MLIP is broadly applicable for chemical, biomolecular and materials science simulations.

arxiv情報

著者 Sakib Matin,Emily Shinkle,Yulia Pimonova,Galen T. Craven,Aleksandra Pachalieva,Ying Wai Li,Kipton Barros,Nicholas Lubbers
発行日 2025-03-19 15:03:39+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, physics.chem-ph パーマリンク