MatSciRE: Leveraging Pointer Networks to Automate Entity and Relation Extraction for Material Science Knowledge-base Construction


材料科学の文献には、さまざまなカテゴリのエンティティ (材料や組成など)、およびこれらのエンティティ間のさまざまな関係 (導電率、電圧など) に関する事実情報が豊富に含まれています。この情報を自動的に抽出して材料科学の知識ベースを生成するのは困難です。
この論文では、材料科学論文からエンティティと関係をトリプレット ($entity1、relation、entity2$) として共同抽出するための、ポインター ネットワーク ベースのエンコーダ/デコーダ フレームワークである MatSciRE (material Science Relation Extractor) を提案します。
具体的には、バッテリー材料を対象とし、導電率、クーロン効率、容量、電圧、エネルギーという 5 つの関係に取り組む必要があることを特定します。
私たちが提案したアプローチは、ChemDataExtractor を使用した以前の試み (0.716) よりもはるかに優れた F1 スコア (0.771) を達成しました。
MatSciRE の全体的なグラフィック フレームワークを図 1 に示します。材料情報は、MatSciRE を使用して実体関係トリプレットの形式で材料科学文献から抽出されます。


Material science literature is a rich source of factual information about various categories of entities (like materials and compositions) and various relations between these entities, such as conductivity, voltage, etc. Automatically extracting this information to generate a material science knowledge base is a challenging task. In this paper, we propose MatSciRE (Material Science Relation Extractor), a Pointer Network-based encoder-decoder framework, to jointly extract entities and relations from material science articles as a triplet ($entity1, relation, entity2$). Specifically, we target the battery materials and identify five relations to work on – conductivity, coulombic efficiency, capacity, voltage, and energy. Our proposed approach achieved a much better F1-score (0.771) than a previous attempt using ChemDataExtractor (0.716). The overall graphical framework of MatSciRE is shown in Fig 1. The material information is extracted from material science literature in the form of entity-relation triplets using MatSciRE.


著者 Ankan Mullick,Akash Ghosh,G Sai Chaitanya,Samir Ghui,Tapas Nayak,Seung-Cheol Lee,Satadeep Bhattacharjee,Pawan Goyal
発行日 2024-01-18 09:54:18+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス, Google

カテゴリー: cs.CE, cs.CL, cs.IR パーマリンク