Contrastive Language-Structure Pre-training Driven by Materials Science Literature

要約

構造と特性の関係を理解することは、材料の発見と開発において不可欠ではありますが、困難な側面です。
このプロセスを促進するために、マテリアルズインフォマティクスの最近の研究では、結晶構造の潜在的な埋め込み空間を探索し、特性と機能に基づいてそれらの類似性を捉えています。
しかし、抽象的な特徴ベースの埋め込み空間は人間にとって不親切であり、広大なマテリアル空間の直感的かつ効率的な探索を妨げます。
ここでは、結晶構造とテキストの間にクロスモーダルな埋め込み空間を構築するための学習パラダイムである、Contrastive Language-Structure Pre-training (CLaSP) を紹介します。
CLaSP は、1) 結晶構造間の特性および機能関連の類似性を捕捉し、2) ユーザーが指定した説明テキストをクエリとして使用して材料を直感的に検索できる材料埋め込みを実現することを目指しています。
結晶構造とテキストの説明を結びつける十分なデータセットの不足を補うために、CLaSP は 400,000 を超える出版された結晶構造のデータセットと、論文のタイトルや要約を含む対応する出版記録をトレーニングに活用しています。
テキストベースの結晶構造スクリーニングと埋め込み空間の可視化を通じて、CLaSP の有効性を実証します。

要約(オリジナル)

Understanding structure-property relationships is an essential yet challenging aspect of materials discovery and development. To facilitate this process, recent studies in materials informatics have sought latent embedding spaces of crystal structures to capture their similarities based on properties and functionalities. However, abstract feature-based embedding spaces are human-unfriendly and prevent intuitive and efficient exploration of the vast materials space. Here we introduce Contrastive Language–Structure Pre-training (CLaSP), a learning paradigm for constructing crossmodal embedding spaces between crystal structures and texts. CLaSP aims to achieve material embeddings that 1) capture property- and functionality-related similarities between crystal structures and 2) allow intuitive retrieval of materials via user-provided description texts as queries. To compensate for the lack of sufficient datasets linking crystal structures with textual descriptions, CLaSP leverages a dataset of over 400,000 published crystal structures and corresponding publication records, including paper titles and abstracts, for training. We demonstrate the effectiveness of CLaSP through text-based crystal structure screening and embedding space visualization.

arxiv情報

著者 Yuta Suzuki,Tatsunori Taniai,Ryo Igarashi,Kotaro Saito,Naoya Chiba,Yoshitaka Ushiku,Kanta Ono
発行日 2025-01-22 14:47:59+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cond-mat.mtrl-sci, cs.LG パーマリンク