Model-free quantification of completeness, uncertainties, and outliers in atomistic machine learning using information theory

要約

情報の正確な記述は、トレーニング セットの作成、不確実性定量化 (UQ) の実行、大規模なデータセットからの物理的洞察の抽出など、原子論的機械学習 (ML) のさまざまな問題に関連します。
ただし、アトミスティック ML は、多くの場合、教師なし学習やモデル予測に依存して、シミュレーション データやトレーニング データからの情報コンテンツを分析します。
ここでは、原子論的シミュレーションにおける情報内容を定量化するための厳密でモデルフリーのツールを提供する理論的フレームワークを紹介します。
私たちは、原子中心環境の分布の情報エントロピーが、トレーニング セットのサイズからデータセットの最適化に至るまで、ML の潜在的な開発における既知のヒューリスティックを説明することを実証します。
このツールを使用して、認識的な不確実性を確実に予測し、核生成などのシステム内のまれなイベントを含む分布外のサンプルを検出する、モデルフリーの UQ 法を提案します。
この方法は、データ駆動型の原子論的モデリングのための一般的なツールを提供し、ML、シミュレーション、および物理的説明可能性の取り組みを組み合わせます。

要約(オリジナル)

An accurate description of information is relevant for a range of problems in atomistic machine learning (ML), such as crafting training sets, performing uncertainty quantification (UQ), or extracting physical insights from large datasets. However, atomistic ML often relies on unsupervised learning or model predictions to analyze information contents from simulation or training data. Here, we introduce a theoretical framework that provides a rigorous, model-free tool to quantify information contents in atomistic simulations. We demonstrate that the information entropy of a distribution of atom-centered environments explains known heuristics in ML potential developments, from training set sizes to dataset optimality. Using this tool, we propose a model-free UQ method that reliably predicts epistemic uncertainty and detects out-of-distribution samples, including rare events in systems such as nucleation. This method provides a general tool for data-driven atomistic modeling and combines efforts in ML, simulations, and physical explainability.

arxiv情報

著者 Daniel Schwalbe-Koda,Sebastien Hamel,Babak Sadigh,Fei Zhou,Vincenzo Lordi
発行日 2024-09-18 16:30:21+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cond-mat.mtrl-sci, cs.LG, physics.chem-ph パーマリンク