Towards Fast, Specialized Machine Learning Force Fields: Distilling Foundation Models via Energy Hessians

要約

基礎モデル(FM)パラダイムは、機械学習力フィールド(MLFF)を変換し、汎用表現とスケーラブルなトレーニングを活用して、さまざまな計算化学タスクを実行します。
MLFF FMは、第一原理的方法と比較して精度のギャップを閉じ始めていますが、推論速度をより速くするためにはまだ強い必要があります。
さらに、研究は化学空間を横切る汎用モデルにますます焦点を当てていますが、実践者は通常、特定の時間にシステムの小さなサブセットのみを研究しています。
これは、列車時間のスケーラビリティを維持しながらテスト時間の物理的な健全性を維持する特定のダウンストリームアプリケーションに関連する高速で専門的なMLFFの必要性を強調しています。
この作業では、MLFFファンデーションモデルから化学空間の特定の領域に特化したより速いMLFFに汎用表現を転送する方法を紹介します。
私たちは、「教師」財団モデルのエネルギー予測のヘシアンと一致するように訓練される知識蒸留手順としてアプローチを策定します。
当社の専門MLFFは、元のファンデーションモデルよりも最大20ドルの時間$ $ $を高くすることができますが、そのパフォーマンスと紛らないモデルのパフォーマンスを保持し、場合によってはそれを超えています。
また、直接力のパラメーター化を備えた教師モデルから、保守的な力(つまり、ポテンシャルエネルギーの派生物として計算された)で訓練された学生モデルに蒸留することは、エネルギーを維持しながら大規模な教師からの表現を正常に活用することを正常に活用することを示しています。
テスト時間分子動力学シミュレーション中の保存。
より広く、私たちの研究は、MLFF開発のための新しいパラダイムを示唆しています。このパラダイムでは、基礎モデルがリリースされ、一般的な化学サブセットのより小さく専門的なシミュレーション「エンジン」がリリースされます。

要約(オリジナル)

The foundation model (FM) paradigm is transforming Machine Learning Force Fields (MLFFs), leveraging general-purpose representations and scalable training to perform a variety of computational chemistry tasks. Although MLFF FMs have begun to close the accuracy gap relative to first-principles methods, there is still a strong need for faster inference speed. Additionally, while research is increasingly focused on general-purpose models which transfer across chemical space, practitioners typically only study a small subset of systems at a given time. This underscores the need for fast, specialized MLFFs relevant to specific downstream applications, which preserve test-time physical soundness while maintaining train-time scalability. In this work, we introduce a method for transferring general-purpose representations from MLFF foundation models to smaller, faster MLFFs specialized to specific regions of chemical space. We formulate our approach as a knowledge distillation procedure, where the smaller ‘student’ MLFF is trained to match the Hessians of the energy predictions of the ‘teacher’ foundation model. Our specialized MLFFs can be up to 20 $\times$ faster than the original foundation model, while retaining, and in some cases exceeding, its performance and that of undistilled models. We also show that distilling from a teacher model with a direct force parameterization into a student model trained with conservative forces (i.e., computed as derivatives of the potential energy) successfully leverages the representations from the large-scale teacher for improved accuracy, while maintaining energy conservation during test-time molecular dynamics simulations. More broadly, our work suggests a new paradigm for MLFF development, in which foundation models are released along with smaller, specialized simulation ‘engines’ for common chemical subsets.

arxiv情報

著者 Ishan Amin,Sanjeev Raja,Aditi Krishnapriyan
発行日 2025-01-31 18:12:36+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cond-mat.mtrl-sci, cs.LG, physics.bio-ph, physics.chem-ph パーマリンク