Foundational Large Language Models for Materials Research

要約

材料の発見と開発は、地球規模の課題に対処するために重要です。
しかし、膨大な量のテキストデータからなる材料科学文献の急激な増加により、知識の抽出、合成、および科学的推論において重大なボトルネックが生じています。
大規模言語モデル (LLM) は、自動化された分析と予測を通じて材料研究を加速する前例のない機会を提供します。
それでも、それらを効果的に展開するには、ドメイン関連のタスクを理解し、解決するためにドメイン固有の適応が必要です。
ここでは、広範な材料文献および結晶学的データのコーパスに基づく LLaMA モデルの継続的な事前トレーニングを通じて開発された、材料科学の基礎モデルのファミリーである LLaMat を紹介します。
体系的な評価を通じて、LLaMat が一般的な言語能力を維持しながら、材料固有の NLP と構造化情報の抽出に優れていることを実証します。
特殊な LLaMat-CIF バリアントは、結晶構造生成において前例のない機能を実証し、周期表全体にわたって高いカバレッジで安定した結晶を予測します。
興味深いことに、LLaMA-2 と比較して LLaMA-3 の優れたパフォーマンスにもかかわらず、LLaMat-2 は、テキストや表からの構造化情報の抽出、特に結晶構造の生成など、さまざまな材料科学タスクにわたって予想外に強化されたドメイン固有のパフォーマンスを示していることがわかります。
過剰訓練された LLM における適応の硬直性の可能性。
まとめると、今回の研究は、材料研究用に実際に展開可能な LLM コパイロットの開発に向けたドメイン適応の有効性を実証しています。
私たちの調査結果は、材料科学を超えて、モデルの選択、トレーニング方法論、ドメイン固有のパフォーマンスなど、LLM のドメイン適応に関する重要な考慮事項を明らかにしており、これらは特殊な科学 AI システムの開発に影響を与える可能性があります。

要約(オリジナル)

Materials discovery and development are critical for addressing global challenges. Yet, the exponential growth in materials science literature comprising vast amounts of textual data has created significant bottlenecks in knowledge extraction, synthesis, and scientific reasoning. Large Language Models (LLMs) offer unprecedented opportunities to accelerate materials research through automated analysis and prediction. Still, their effective deployment requires domain-specific adaptation for understanding and solving domain-relevant tasks. Here, we present LLaMat, a family of foundational models for materials science developed through continued pretraining of LLaMA models on an extensive corpus of materials literature and crystallographic data. Through systematic evaluation, we demonstrate that LLaMat excels in materials-specific NLP and structured information extraction while maintaining general linguistic capabilities. The specialized LLaMat-CIF variant demonstrates unprecedented capabilities in crystal structure generation, predicting stable crystals with high coverage across the periodic table. Intriguingly, despite LLaMA-3’s superior performance in comparison to LLaMA-2, we observe that LLaMat-2 demonstrates unexpectedly enhanced domain-specific performance across diverse materials science tasks, including structured information extraction from text and tables, more particularly in crystal structure generation, a potential adaptation rigidity in overtrained LLMs. Altogether, the present work demonstrates the effectiveness of domain adaptation towards developing practically deployable LLM copilots for materials research. Beyond materials science, our findings reveal important considerations for domain adaptation of LLMs, such as model selection, training methodology, and domain-specific performance, which may influence the development of specialized scientific AI systems.

arxiv情報

著者 Vaibhav Mishra,Somaditya Singh,Dhruv Ahlawat,Mohd Zaki,Vaibhav Bihani,Hargun Singh Grover,Biswajit Mishra,Santiago Miret,Mausam,N. M. Anoop Krishnan
発行日 2024-12-12 18:46:38+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cond-mat.mtrl-sci, cs.CL, cs.IR パーマリンク