Reconstructing Materials Tetrahedron: Challenges in Materials Information Extraction

要約

新しい物質の発見には、何世紀にもわたって人類の進歩を推進してきた文書化された歴史があります。
材料の挙動はその組成、構造、特性の関数であり、さらに加工条件や試験条件にも依存します。
深層学習と自然言語処理の最近の発展により、査​​読済みの出版物、書籍、特許などの出版文献から大規模な情報抽出が可能になりました。
ただし、この情報は表、テキスト、画像などの複数の形式で分散されており、レポート形式がほとんどまたはまったく統一されていないため、機械学習のいくつかの課題が生じています。
ここでは、大規模な材料科学知識ベースの構築に向けて、材料科学文献からの自動情報抽出 (IE) におけるこれらの未解決の課題について議論し、定量化し、文書化します。
具体的には、テキストと表から IE に焦点を当て、例を示していくつかの課題を概説します。
私たちは、今回の研究が研究者に一貫した方法で課題に取り組むよう促し、IE に材料知識ベースを提供することを願っています。

要約(オリジナル)

Discovery of new materials has a documented history of propelling human progress for centuries and more. The behaviour of a material is a function of its composition, structure, and properties, which further depend on its processing and testing conditions. Recent developments in deep learning and natural language processing have enabled information extraction at scale from published literature such as peer-reviewed publications, books, and patents. However, this information is spread in multiple formats, such as tables, text, and images, and with little or no uniformity in reporting style giving rise to several machine learning challenges. Here, we discuss, quantify, and document these outstanding challenges in automated information extraction (IE) from materials science literature towards the creation of a large materials science knowledge base. Specifically, we focus on IE from text and tables and outline several challenges with examples. We hope the present work inspires researchers to address the challenges in a coherent fashion, providing to fillip to IE for the materials knowledge base.

arxiv情報

著者 Kausik Hira,Mohd Zaki,Dhruvil Sheth,Mausam,N M Anoop Krishnan
発行日 2023-10-12 14:57:24+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cond-mat.mtrl-sci, cs.CL パーマリンク