Large Language Models as Master Key: Unlocking the Secrets of Materials Science with GPT

要約

タイトル:大規模言語モデルをマスターキーとして:GPTによる物質科学の秘密の強制解除

要約:

– NLPタスク「構造化情報推論(SII)」を開発し、物質科学でのデバイスレベルの情報抽出の複雑さに対処する。
– GPT-3を既存のペロブスカイト太陽電池FAIR(Findable, Accessible, Interoperable, Reusable)データセットにチューニングして、91.8のF1スコアを達成し、現在までのすべての関連する科学論文でデータセットを更新した。
– 生成されたデータセットは、フォーマットされ正規化され、そのままサブセクエントデータ分析の入力として直接利用できるようになっている。
– この機能により、材料科学者は自分のドメイン内で高品質なレビューペーパーを選択し、自分自身のモデルを開発することができる。
– さらに、LLMを介して材料遺伝子とFAIRの日付セットで太陽電池の電気性能を予測し、パラメータを逆予測するための実験を設計した。
– 特徴選択なしで従来の機械学習法と同等のパフォーマンスを得たため、大規模言語モデルが材料を判断し、材料科学者のように新しい材料を設計する可能性があることを示している。

要約(オリジナル)

This article presents a new NLP task called structured information inference (SII) to address the complexities of information extraction at the device level in materials science. We accomplished this task by tuning GPT-3 on an existed perovskite solar cell FAIR(Findable, Accessible, Interoperable, Reusable) dataset with 91.8 F1-score and we updated the dataset with all related scientific papers up to now. The produced dataset is formatted and normalized, enabling its direct utilization as input in subsequent data analysis. This feature will enable materials scientists to develop their own models by selecting high-quality review papers within their domain. Furthermore, we designed experiments to predict solar cells’ electrical performance and reverse-predict parameters on both material gene and FAIR datesets through LLM. We obtained comparable performance with traditional machine learning methods without feature selection, which demonstrates the potential of large language models to judge materials and design new materials like a materials scientist.

arxiv情報

著者 Tong Xie,Yuwei Wan,Wei Huang,Yufei Zhou,Yixuan Liu,Qingyuan Linghu,Shaozhou Wang,Chunyu Kit,Clara Grazian,Bram Hoex
発行日 2023-04-06 12:08:53+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.AI, cs.CL パーマリンク