要約
機械学習モデルのための原子配置の表現は、多くの場合、原子の局所的な環境を記述するための数多くの記述子の開発につながった。しかし、これらの表現の多くは不完全であり、また機能依存である。不完全な記述子集合は、原子環境における全ての意味のある変化を表現することができない。一方、原子環境記述子の完全な構成は、しばしば高度な機能依存性に悩まされ、ある記述子は他の記述子の関数として書くことができる。このような冗長な記述子は、異なる原子環境を識別するための付加的な力を提供せず、計算負荷を増大させる。既存の原子論的表現にパターン認識の文献の技法を採用することで、他の記述子の関数である記述子を除去し、完全性を満たす可能な限り小さな集合を生成する。まず、既存の記述であるAtomistic Cluster Expansionを改良する。これにより、より効率的な記述子のサブセットが得られることを示す。第二に、スカラーニューラルネットワークに基づく不完全な構造を補強し、直交テンソル不変量の最適なセットを利用することで、各ニューロンで最大5体のパターンを認識できる新しいメッセージパッシングネットワークアーキテクチャを得る。このアーキテクチャは、低い計算コストを維持しながら、最先端のベンチマークにおいて高い精度を示している。我々の結果は、モデルの改良をもたらすだけでなく、多くのアプリケーションにおいて、表現力を最大化しながらコストを最小化する不変量ベースのクラスへの道を指し示すものである。
要約(オリジナル)
The representation of atomic configurations for machine learning models has led to the development of numerous descriptors, often to describe the local environment of atoms. However, many of these representations are incomplete and/or functionally dependent. Incomplete descriptor sets are unable to represent all meaningful changes in the atomic environment. Complete constructions of atomic environment descriptors, on the other hand, often suffer from a high degree of functional dependence, where some descriptors can be written as functions of the others. These redundant descriptors do not provide additional power to discriminate between different atomic environments and increase the computational burden. By employing techniques from the pattern recognition literature to existing atomistic representations, we remove descriptors that are functions of other descriptors to produce the smallest possible set that satisfies completeness. We apply this in two ways: first we refine an existing description, the Atomistic Cluster Expansion. We show that this yields a more efficient subset of descriptors. Second, we augment an incomplete construction based on a scalar neural network, yielding a new message-passing network architecture that can recognize up to 5-body patterns in each neuron by taking advantage of an optimal set of Cartesian tensor invariants. This architecture shows strong accuracy on state-of-the-art benchmarks while retaining low computational cost. Our results not only yield improved models, but point the way to classes of invariant bases that minimize cost while maximizing expressivity for a host of applications.
arxiv情報
| 著者 | Alice E. A. Allen,Emily Shinkle,Roxana Bujack,Nicholas Lubbers |
| 発行日 | 2025-04-03 16:35:44+00:00 |
| arxivサイト | arxiv_id(pdf) |