要約
材料科学の知識の大部分は非構造化自然言語で存在しますが、革新的で体系的な材料設計には構造化データが不可欠です。
従来、この分野では、特定のユースケースに応じたデータ抽出を手動でキュレーションし、部分的に自動化することに依存してきました。
大規模言語モデル (LLM) の出現は大きな変化を表しており、専門家でなくても非構造化テキストから構造化された実用的なデータを効率的に抽出できるようになる可能性があります。
LLM を材料科学データ抽出に適用すると特有の課題が生じますが、ドメイン知識は LLM の出力を導き、検証する機会を提供します。
このレビューでは、材料科学における LLM ベースの構造化データ抽出の包括的な概要を提供し、現在の知識を総合し、将来の方向性を概説します。
私たちは標準化されたガイドラインの欠如に対処し、LLM と材料科学の専門知識の間の相乗効果を活用するためのフレームワークを提示します。
この成果は、データ駆動型の材料研究に LLM を利用することを目指す研究者にとっての基礎的なリソースとして機能します。
ここで提示された洞察は、分野を超えた研究者が科学情報にアクセスして活用する方法を大幅に強化し、重要な社会的ニーズを満たす新規材料の開発を加速する可能性があります。
要約(オリジナル)
The vast majority of materials science knowledge exists in unstructured natural language, yet structured data is crucial for innovative and systematic materials design. Traditionally, the field has relied on manual curation and partial automation for data extraction for specific use cases. The advent of large language models (LLMs) represents a significant shift, potentially enabling efficient extraction of structured, actionable data from unstructured text by non-experts. While applying LLMs to materials science data extraction presents unique challenges, domain knowledge offers opportunities to guide and validate LLM outputs. This review provides a comprehensive overview of LLM-based structured data extraction in materials science, synthesizing current knowledge and outlining future directions. We address the lack of standardized guidelines and present frameworks for leveraging the synergy between LLMs and materials science expertise. This work serves as a foundational resource for researchers aiming to harness LLMs for data-driven materials research. The insights presented here could significantly enhance how researchers across disciplines access and utilize scientific information, potentially accelerating the development of novel materials for critical societal needs.
arxiv情報
著者 | Mara Schilling-Wilhelmi,Martiño Ríos-García,Sherjeel Shabih,María Victoria Gil,Santiago Miret,Christoph T. Koch,José A. Márquez,Kevin Maik Jablonka |
発行日 | 2024-12-02 15:42:53+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google