LLM4Mat-Bench: Benchmarking Large Language Models for Materials Property Prediction

要約

大規模言語モデル (LLM) は材料科学で使用されることが増えています。
しかし、LLM ベースの材料特性予測のベンチマークや標準化された評価にはほとんど注目が払われておらず、進歩の妨げとなっています。
結晶材料の特性を予測する際の LLM のパフォーマンスを評価するための、これまでで最大のベンチマークである LLM4Mat-Bench を紹介します。
LLM4Mat-Bench には、10 の公的に利用可能な材料データ ソースから収集された合計約 190 万の結晶構造と 45 の異なる特性が含まれています。
LLM4Mat-Bench は、結晶組成、CIF、および結晶テキストの説明といったさまざまな入力モダリティを備えており、各モダリティにそれぞれ合計 470 万、6 億 1550 万、および 310 億のトークンが含まれます。
LLM4Mat-Bench を使用して、LLM-Prop や MatBERT などのさまざまなサイズのモデルを微調整し、Llama、Gemma、
そしてミストラル。
この結果は、材料科学における汎用 LLM の課題と、材料特性予測におけるタスク固有の予測モデルおよびタスク固有の命令調整 LLM の必要性を浮き彫りにしています。

要約(オリジナル)

Large language models (LLMs) are increasingly being used in materials science. However, little attention has been given to benchmarking and standardized evaluation for LLM-based materials property prediction, which hinders progress. We present LLM4Mat-Bench, the largest benchmark to date for evaluating the performance of LLMs in predicting the properties of crystalline materials. LLM4Mat-Bench contains about 1.9M crystal structures in total, collected from 10 publicly available materials data sources, and 45 distinct properties. LLM4Mat-Bench features different input modalities: crystal composition, CIF, and crystal text description, with 4.7M, 615.5M, and 3.1B tokens in total for each modality, respectively. We use LLM4Mat-Bench to fine-tune models with different sizes, including LLM-Prop and MatBERT, and provide zero-shot and few-shot prompts to evaluate the property prediction capabilities of LLM-chat-like models, including Llama, Gemma, and Mistral. The results highlight the challenges of general-purpose LLMs in materials science and the need for task-specific predictive models and task-specific instruction-tuned LLMs in materials property prediction.

arxiv情報

著者 Andre Niyongabo Rubungo,Kangming Li,Jason Hattrick-Simpers,Adji Bousso Dieng
発行日 2024-11-08 16:42:18+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cond-mat.mtrl-sci, cs.CL パーマリンク