CHILI: Chemically-Informed Large-scale Inorganic Nanomaterials Dataset for Advancing Graph Machine Learning

要約

グラフは依然として分子の最も表現力豊かな表現であるため、グラフ機械学習 (ML) の進歩は化学への応用によって推進されてきました。
初期のグラフ ML 手法は主に小さな有機分子に焦点を当てていましたが、最近ではグラフ ML の範囲が無機材料を含むように拡大されました。
無機結晶材料の周期性と対称性のモデル化には、既存のグラフ ML 手法では対処できない特有の課題が生じます。
無機ナノマテリアルに移行すると、各グラフ内のノード数のスケールが広くなる可能性があるため ($10$ から $10^5$)、複雑さが増します。
既存のグラフ ML の大部分は、グラフを入力として使用してターゲットの特性を予測することによって分子や材料を特徴付けることに焦点を当てています。
ただし、グラフ ML の最も魅力的なアプリケーションは生成機能にあり、現時点では画像やテキストなどの他の領域と同等ではありません。
私たちは、グラフ ML コミュニティに、2 つの新しい化学情報に基づいた大規模無機 (CHILI) ナノマテリアル データセットを提示することで、これらの未解決の課題に対処するよう呼びかけます: 単一金属酸化物ナノマテリアルの中規模データセット (全体で 600 万を超えるノード、4900 万を超えるエッジ)
選択された 12 種類の結晶タイプ (CHILI-3K) と、実験的に決定された結晶構造から生成されたナノマテリアルの大規模データセット (全体で 183M 以上のノード、1.2B 以上のエッジ) から生成されました (CHILI-100K)。
ナノマテリアル研究にとって特に重要な 11 の特性予測タスクと 6 つの構造予測タスクを定義します。
私たちはさまざまなベースライン手法のパフォーマンスをベンチマークし、これらのベンチマーク結果を使用して、今後の作業が必要な領域を強調します。
私たちの知る限り、CHILI-3K と CHILI-100K は、個々のグラフ レベルとデータセット全体の両方において、この規模の最初のオープンソース ナノマテリアル データセットであり、高度な構造を備えた唯一のナノマテリアル データセットです。
そして元素の多様性。

要約(オリジナル)

Advances in graph machine learning (ML) have been driven by applications in chemistry as graphs have remained the most expressive representations of molecules. While early graph ML methods focused primarily on small organic molecules, recently, the scope of graph ML has expanded to include inorganic materials. Modelling the periodicity and symmetry of inorganic crystalline materials poses unique challenges, which existing graph ML methods are unable to address. Moving to inorganic nanomaterials increases complexity as the scale of number of nodes within each graph can be broad ($10$ to $10^5$). The bulk of existing graph ML focuses on characterising molecules and materials by predicting target properties with graphs as input. However, the most exciting applications of graph ML will be in their generative capabilities, which is currently not at par with other domains such as images or text. We invite the graph ML community to address these open challenges by presenting two new chemically-informed large-scale inorganic (CHILI) nanomaterials datasets: A medium-scale dataset (with overall >6M nodes, >49M edges) of mono-metallic oxide nanomaterials generated from 12 selected crystal types (CHILI-3K) and a large-scale dataset (with overall >183M nodes, >1.2B edges) of nanomaterials generated from experimentally determined crystal structures (CHILI-100K). We define 11 property prediction tasks and 6 structure prediction tasks, which are of special interest for nanomaterial research. We benchmark the performance of a wide array of baseline methods and use these benchmarking results to highlight areas which need future work. To the best of our knowledge, CHILI-3K and CHILI-100K are the first open-source nanomaterial datasets of this scale — both on the individual graph level and of the dataset as a whole — and the only nanomaterials datasets with high structural and elemental diversity.

arxiv情報

著者 Ulrik Friis-Jensen,Frederik L. Johansen,Andy S. Anker,Erik B. Dam,Kirsten M. Ø. Jensen,Raghavendra Selvan
発行日 2024-02-21 08:07:13+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, stat.ML パーマリンク