Information theory unifies atomistic machine learning, uncertainty quantification, and materials thermodynamics

要約

情報の正確な記述は、サンプリング方法、まれなイベントの検出、データセットの分析、機械学習 (ML) 主導のシミュレーションでの不確実性定量化 (UQ) の実行など、アトミスティック モデリングのさまざまな問題に関連します。
これらのタスクのそれぞれに対して個別の方法が提案されていますが、それらの解決策を統合する共通の理論的背景が不足しています。
ここでは、原子論的シミュレーションからの相変態、運動学的イベント、データセットの最適性、モデルフリー UQ の予測を統合し、材料モデリング、ML、統計力学の橋渡しとなる情報理論的フレームワークを紹介します。
我々はまず、提案された表現に関して、原子中心環境の分布の情報エントロピーが熱力学エントロピーの代用値であることを実証します。
分子動力学 (MD) シミュレーションを使用して、軌道からの情報エントロピーの違いを状態図の構築、まれな事象の特定、および核生成の古典的な理論の復元に使用できることを示します。
これらの結果に基づいて、エントロピーのこの一般的な概念を使用して、ML 原子間ポテンシャル (IP) のデータセット内の情報を定量化し、圧縮に情報を提供し、テストエラーの傾向を説明し、アクティブラーニング戦略の効率を評価します。
最後に、情報エントロピーを使用した MLIP 用のモデルフリー UQ 法を提案し、この手法が外挿領域を確実に検出し、数百万の原子にスケールし、モデル誤差を超えられることを示します。
この手法は、パッケージ QUESTS: Quick Uncertainty and Entropy via STructural Sameity として利用可能であり、データ駆動型の原子モデリングと、ML、第一原理熱力学、およびシミュレーションの取り組みを組み合わせるための新しい統一理論を提供します。

要約(オリジナル)

An accurate description of information is relevant for a range of problems in atomistic modeling, such as sampling methods, detecting rare events, analyzing datasets, or performing uncertainty quantification (UQ) in machine learning (ML)-driven simulations. Although individual methods have been proposed for each of these tasks, they lack a common theoretical background integrating their solutions. Here, we introduce an information theoretical framework that unifies predictions of phase transformations, kinetic events, dataset optimality, and model-free UQ from atomistic simulations, thus bridging materials modeling, ML, and statistical mechanics. We first demonstrate that, for a proposed representation, the information entropy of a distribution of atom-centered environments is a surrogate value for thermodynamic entropy. Using molecular dynamics (MD) simulations, we show that information entropy differences from trajectories can be used to build phase diagrams, identify rare events, and recover classical theories of nucleation. Building on these results, we use this general concept of entropy to quantify information in datasets for ML interatomic potentials (IPs), informing compression, explaining trends in testing errors, and evaluating the efficiency of active learning strategies. Finally, we propose a model-free UQ method for MLIPs using information entropy, showing it reliably detects extrapolation regimes, scales to millions of atoms, and goes beyond model errors. This method is made available as the package QUESTS: Quick Uncertainty and Entropy via STructural Similarity, providing a new unifying theory for data-driven atomistic modeling and combining efforts in ML, first-principles thermodynamics, and simulations.

arxiv情報

著者 Daniel Schwalbe-Koda,Sebastien Hamel,Babak Sadigh,Fei Zhou,Vincenzo Lordi
発行日 2024-04-18 17:50:15+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cond-mat.mtrl-sci, cs.LG, physics.chem-ph パーマリンク