Contrastive Language-Structure Pre-training Driven by Materials Science Literature


ここでは、結晶構造とテキストの間にクロスモーダルな埋め込み空間を構築するための学習パラダイムである、Contrastive Language-Structure Pre-training (CLaSP) を紹介します。
CLaSP は、1) 結晶構造間の特性および機能関連の類似性を捕捉し、2) ユーザーが指定した説明テキストをクエリとして使用して材料を直感的に検索できる材料埋め込みを実現することを目指しています。
結晶構造とテキストの説明を結びつける十分なデータセットの不足を補うために、CLaSP は 400,000 を超える出版された結晶構造のデータセットと、論文のタイトルや要約を含む対応する出版記録をトレーニングに活用しています。
テキストベースの結晶構造スクリーニングと埋め込み空間の可視化を通じて、CLaSP の有効性を実証します。


Understanding structure-property relationships is an essential yet challenging aspect of materials discovery and development. To facilitate this process, recent studies in materials informatics have sought latent embedding spaces of crystal structures to capture their similarities based on properties and functionalities. However, abstract feature-based embedding spaces are human-unfriendly and prevent intuitive and efficient exploration of the vast materials space. Here we introduce Contrastive Language–Structure Pre-training (CLaSP), a learning paradigm for constructing crossmodal embedding spaces between crystal structures and texts. CLaSP aims to achieve material embeddings that 1) capture property- and functionality-related similarities between crystal structures and 2) allow intuitive retrieval of materials via user-provided description texts as queries. To compensate for the lack of sufficient datasets linking crystal structures with textual descriptions, CLaSP leverages a dataset of over 400,000 published crystal structures and corresponding publication records, including paper titles and abstracts, for training. We demonstrate the effectiveness of CLaSP through text-based crystal structure screening and embedding space visualization.


著者 Yuta Suzuki,Tatsunori Taniai,Ryo Igarashi,Kotaro Saito,Naoya Chiba,Yoshitaka Ushiku,Kanta Ono
発行日 2025-01-22 14:47:59+00:00
カテゴリー: cond-mat.mtrl-sci, cs.LG