Integer linear programming for unsupervised training set selection in molecular machine learning

要約

整数線形計画法 (ILP) は、線形最適化問題を解決する洗練されたアプローチであり、当然整数決定変数を使用して記述されます。
物理学にヒントを得た機械学習を化学に適用するという文脈の中で、サイズに及ぶ特性を予測するための分子トレーニング セットを選択するための ILP 定式化の関連性を実証します。
特にトレーニング セットに存在するものより大きな分子の特性を予測する場合、私たちのアルゴリズムが既存の教師なしトレーニング セット選択アプローチよりも優れたパフォーマンスを発揮することを示します。
パフォーマンスが向上した理由は、局所的な類似性 (つまり、原子ごと) の概念に基づいた選択と、最適なソリューションを効率的に見つける独自の ILP アプローチによるものであると私たちは主張します。
全体として、この研究は、物理学にインスピレーションを得た機械学習モデルのパフォーマンスを向上させる実用的なアルゴリズムを提供し、既存のトレーニング セット選択アプローチとの概念的な違いについての洞察を提供します。

要約(オリジナル)

Integer linear programming (ILP) is an elegant approach to solve linear optimization problems, naturally described using integer decision variables. Within the context of physics-inspired machine learning applied to chemistry, we demonstrate the relevance of an ILP formulation to select molecular training sets for predictions of size-extensive properties. We show that our algorithm outperforms existing unsupervised training set selection approaches, especially when predicting properties of molecules larger than those present in the training set. We argue that the reason for the improved performance is due to the selection that is based on the notion of local similarity (i.e., per-atom) and a unique ILP approach that finds optimal solutions efficiently. Altogether, this work provides a practical algorithm to improve the performance of physics-inspired machine learning models and offers insights into the conceptual differences with existing training set selection approaches.

arxiv情報

著者 Matthieu Haeberle,Puck van Gerwen,Ruben Laplaza,Ksenia R. Briling,Jan Weinreich,Friedrich Eisenbrand,Clemence Corminboeuf
発行日 2024-10-21 15:50:04+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, physics.chem-ph パーマリンク