MaScQA: A Question Answering Dataset for Investigating Materials Science Knowledge of Large Language Models

要約

材料文献からの情報抽出とテキスト理解は、材料発見の加速を可能にする網羅的な知識ベースを開発するために不可欠です。
言語モデルは、ドメイン固有の質問に答え、知識ベースから情報を取得する機能を実証しています。
ただし、材料ドメインには、これらの言語モデルによる主要な概念の理解を評価できるベンチマーク データセットはありません。
この作業では、学部の学位を取得した材料学生の知識とスキルを必要とする材料分野からの 650 の難問のデータセットを厳選しました。
これらの質問は、その構造と材料科学ドメインベースのサブカテゴリに基づいて分類されます。
さらに、ゼロショットおよび思考連鎖プロンプトを介してこれらの質問を解決する際の GPT-3.5 および GPT-4 モデルのパフォーマンスを評価します。
GPT-4 は GPT-3.5 と比較して最高のパフォーマンス (約 62% の精度) を提供することが観察されています。
興味深いことに、一般的な観察とは対照的に、思考連鎖プロンプトでは精度の大幅な向上は観察されません。
制限を評価するために、エラー分析を実行したところ、計算エラー (約 36%) と比較して、LLM のパフォーマンス低下の主な原因として概念的エラー (約 64%) が明らかになりました。
この研究で実行されたデータセットと分析によって、材料科学分野に特化したより優れた LLM と情報抽出戦略の開発におけるさらなる研究が促進されることを願っています。

要約(オリジナル)

Information extraction and textual comprehension from materials literature are vital for developing an exhaustive knowledge base that enables accelerated materials discovery. Language models have demonstrated their capability to answer domain-specific questions and retrieve information from knowledge bases. However, there are no benchmark datasets in the materials domain that can evaluate the understanding of the key concepts by these language models. In this work, we curate a dataset of 650 challenging questions from the materials domain that require the knowledge and skills of a materials student who has cleared their undergraduate degree. We classify these questions based on their structure and the materials science domain-based subcategories. Further, we evaluate the performance of GPT-3.5 and GPT-4 models on solving these questions via zero-shot and chain of thought prompting. It is observed that GPT-4 gives the best performance (~62% accuracy) as compared to GPT-3.5. Interestingly, in contrast to the general observation, no significant improvement in accuracy is observed with the chain of thought prompting. To evaluate the limitations, we performed an error analysis, which revealed conceptual errors (~64%) as the major contributor compared to computational errors (~36%) towards the reduced performance of LLMs. We hope that the dataset and analysis performed in this work will promote further research in developing better materials science domain-specific LLMs and strategies for information extraction.

arxiv情報

著者 Mohd Zaki,Jayadeva,Mausam,N. M. Anoop Krishnan
発行日 2023-08-17 17:51:05+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cond-mat.mtrl-sci, cs.CL パーマリンク