要約
私たちは、材料科学における信頼できるデータキュレーションのための命令ベースのプロセス (MatSci-Instruct) を提案し、それを適用して材料科学 (HoneyBee) を対象とした LLaMa ベースの言語モデルを微調整します。
MatSci-Instruct は、公開文献で入手可能な、関連性の高い高品質の材料科学テキスト データの不足を軽減するのに役立ちます。HoneyBee は、材料科学に特化した初の 10 億パラメータの言語モデルです。
MatSci-Instruct では、複数の市販の大規模言語モデルを Instructor モジュール (Chat-GPT など) で生成し、独立した Verifier モジュール (Claude など) で検証するように促すことで、生成されたデータの信頼性を向上させます。
MatSci-Instruct を使用して、複数のタスクのデータセットを構築し、既知の事実に対する精度、材料科学との関連性、データの完全性と合理性など、複数の側面に沿ってデータセットの品質を測定します。
さらに、微調整 – 評価 – フィードバック ループで、よりターゲットを絞った命令と命令データを繰り返し生成することで、微調整された HoneyBee モデルのパフォーマンスが徐々に向上します。
MatSci-NLP ベンチマークでの評価では、材料科学タスクおよび命令データ改良の連続段階での反復改善において、HoneyBee が既存の言語モデルよりも優れたパフォーマンスを示しています。
私たちは自動評価を通じて HoneyBee の言語モデリングの品質を研究し、モデルの機能と制限をさらに理解するためにケーススタディを分析します。
私たちのコードと関連データセットは、\url{https://github.com/BangLab-UdeM-Mila/NLP4MatSci-HoneyBee} で公開されています。
要約(オリジナル)
We propose an instruction-based process for trustworthy data curation in materials science (MatSci-Instruct), which we then apply to finetune a LLaMa-based language model targeted for materials science (HoneyBee). MatSci-Instruct helps alleviate the scarcity of relevant, high-quality materials science textual data available in the open literature, and HoneyBee is the first billion-parameter language model specialized to materials science. In MatSci-Instruct we improve the trustworthiness of generated data by prompting multiple commercially available large language models for generation with an Instructor module (e.g. Chat-GPT) and verification from an independent Verifier module (e.g. Claude). Using MatSci-Instruct, we construct a dataset of multiple tasks and measure the quality of our dataset along multiple dimensions, including accuracy against known facts, relevance to materials science, as well as completeness and reasonableness of the data. Moreover, we iteratively generate more targeted instructions and instruction-data in a finetuning-evaluation-feedback loop leading to progressively better performance for our finetuned HoneyBee models. Our evaluation on the MatSci-NLP benchmark shows HoneyBee’s outperformance of existing language models on materials science tasks and iterative improvement in successive stages of instruction-data refinement. We study the quality of HoneyBee’s language modeling through automatic evaluation and analyze case studies to further understand the model’s capabilities and limitations. Our code and relevant datasets are publicly available at \url{https://github.com/BangLab-UdeM-Mila/NLP4MatSci-HoneyBee}.
arxiv情報
著者 | Yu Song,Santiago Miret,Huan Zhang,Bang Liu |
発行日 | 2023-10-12 17:06:19+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google