Large Language Models as Master Key: Unlocking the Secrets of Materials Science with GPT

要約

タイトル:GPTによる素材科学の秘密の解明:大規模言語モデルをマスターキーとする

要約:
– 原材料科学においては、手動または自動的なアプローチによって生成された多数のデータセットがありますが、その豊富なデータを効果的に活用することができず、特に材料の性能ではなくデバイスの性能に基づいて評価される応用分野においては、複雑な情報抽出の障壁があります。
– 本記事は、材料科学におけるデバイスレベルの情報抽出の複雑さに対処するために、新しい自然言語処理(NLP)タスクである構造化情報推論(SII)を提案しています。
– 既存のペロブスカイト太陽電池の FAIR(Findable、Accessible、Interoperable、Reusable)データセットを GPT-3で調整して、F1スコア91.8%を達成し、そのリリース以来のデータでデータセットを拡張しました。生成されたデータはフォーマットされ、正規化され、直接後続のデータ分析の入力として利用できるようになっています。
– この機能により、材料科学者は、自分たちのドメイン内で高品質のレビュー記事を選択してモデルを開発することができます。
– 加えて、大規模言語モデル(LLM)を用いて太陽電池の電気性能を予測し、ターゲットパラメーターを持つ材料やデバイスを設計する実験を設計しました。機能選択をせずに、従来の機械学習方法と同等のパフォーマンスを実証し、材料科学者と同じように科学知識を獲得し、新しい材料をデザインする可能性が高いことを強調しています。

要約(オリジナル)

The amount of data has growing significance in exploring cutting-edge materials and a number of datasets have been generated either by hand or automated approaches. However, the materials science field struggles to effectively utilize the abundance of data, especially in applied disciplines where materials are evaluated based on device performance rather than their properties. This article presents a new natural language processing (NLP) task called structured information inference (SII) to address the complexities of information extraction at the device level in materials science. We accomplished this task by tuning GPT-3 on an existing perovskite solar cell FAIR (Findable, Accessible, Interoperable, Reusable) dataset with 91.8% F1-score and extended the dataset with data published since its release. The produced data is formatted and normalized, enabling its direct utilization as input in subsequent data analysis. This feature empowers materials scientists to develop models by selecting high-quality review articles within their domain. Additionally, we designed experiments to predict the electrical performance of solar cells and design materials or devices with targeted parameters using large language models (LLMs). Our results demonstrate comparable performance to traditional machine learning methods without feature selection, highlighting the potential of LLMs to acquire scientific knowledge and design new materials akin to materials scientists.

arxiv情報

著者 Tong Xie,Yuwei Wan,Wei Huang,Yufei Zhou,Yixuan Liu,Qingyuan Linghu,Shaozhou Wang,Chunyu Kit,Clara Grazian,Wenjie Zhang,Bram Hoex
発行日 2023-04-12 14:06:02+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.AI, cs.CL パーマリンク