Large Language Models as Master Key: Unlocking the Secrets of Materials Science with GPT

要約

タイトル:GPTを利用したマスターキーとしての大規模プログラム言語モデル:構造化情報推論を用いた物質科学の秘密の解明

要約:

– データは先進的な素材の探索において重要性が増しており、データセットの数が手動または自動的な手法によって生成されています。
– しかし、特性に基づくものではなくデバイスの性能に基づいて物質が評価される応用分野において、物質科学分野は生成されたデータの豊富さを効果的に利用することができませんでした。
– 本論文では、構造化情報推論(SII)と呼ばれる新しいNLPタスクを提案し、物質科学におけるデバイスレベルでの情報抽出の複雑さに対処します。
– 私たちは、GPT-3を91.8%のF1スコアで既存のペロブスカイト太陽電池FAIR(Findable、Accessible、Interoperable、Reusable)データセットに調整することでこのタスクを達成し、すべての関連する科学論文でデータセットを更新しました。
– 生成されたデータは、フォーマット化され正規化されており、続くデータ分析の入力として直接利用できます。これにより、物質科学者は自分のドメイン内の高品質なレビュー論文を選択することで自分自身のモデルを開発することができます。
– さらに、LLMを用いた太陽電池の電気的性能の予測や、目標パラメータを持つ材料やデバイスの設計などの実験を設計しました。
– 特徴選択なしで従来の機械学習手法と同等のパフォーマンスを得ることができ、LLMが物質科学者のように科学的知識を学び、新しい材料を設計する可能性を示しました。

要約(オリジナル)

Data has growing significance in exploring cutting-edge materials, and the number of datasets has been generated either by hand or automated approaches. However, the materials science field struggles to effectively utilize the abundance of generated data, especially in applied disciplines where materials are evaluated based on device performance rather than their properties. This article presents a new NLP task called structured information inference (SII) to address the complexities of information extraction at the device level in materials science. We accomplished this task by tuning GPT-3 on an existing perovskite solar cell FAIR (Findable, Accessible, Interoperable, Reusable) dataset with 91.8% F1-score and we updated the dataset with all related scientific papers up to now. The produced data is formatted and normalized, enabling its direct utilization as input in subsequent data analysis. This feature will enable materials scientists to develop their own models by selecting high-quality review papers within their domain. Furthermore, we designed experiments to predict solar cells’ electrical performance and design materials or devices with target parameters through LLM. We obtained comparable performance with traditional machine learning methods without feature selection, demonstrating the potential of LLMs to learn scientific knowledge and design new materials like a materials scientist.

arxiv情報

著者 Tong Xie,Yuwei Wan,Wei Huang,Yufei Zhou,Yixuan Liu,Qingyuan Linghu,Shaozhou Wang,Chunyu Kit,Clara Grazian,Bram Hoex
発行日 2023-04-10 15:53:26+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.AI, cs.CL パーマリンク