ChatGPT Chemistry Assistant for Text Mining and Prediction of MOF Synthesis

要約

当社では、プロンプト エンジニアリングを使用して、科学文献のさまざまな形式とスタイルからの金属有機フレームワーク (MOF) 合成条件のテキスト マイニングの自動化において ChatGPT をガイドします。
これにより、ChatGPT が情報を幻覚する傾向が効果的に軽減されます。これは、以前は科学分野で大規模言語モデル (LLM) の使用を困難にしていた問題です。
私たちのアプローチには、ChatGPT 自体によってプログラムされた、テキスト マイニング用の 3 つの異なるプロセスを実装するワークフローの開発が含まれます。
これらはすべて、労力、速度、精度の間でさまざまなトレードオフを伴いながら、解析、検索、フィルタリング、分類、要約、データ統合を可能にします。
当社はこのシステムを導入して、査読済みの研究論文から得た約 800 の MOF に関連する 26,257 の異なる合成パラメータを抽出します。
このプロセスには、ChatGPT にテキスト マイニングを指示する ChemPrompt Engineering 戦略が組み込まれており、その結果、90 ~ 99% という優れた精度、再現率、F1 スコアが得られます。
さらに、テキストマイニングによって構築されたデータセットを使用して、MOF 実験の結晶化結果を予測し、MOF 結晶化における重要な要素を事前に特定する際に 86% 以上の精度を持つ機械学習モデルを構築しました。
また、化学反応や合成手順に関する質問に答えるため、データに基づいた信頼性の高い MOF チャットボットも開発しました。
ChatGPT を使用するプロセスでは、統一された形式で多様な MOF 合成情報を確実にマイニングして表にまとめ、コーディングの専門知識を必要としない説明言語のみを使用するため、ChatGPT 化学アシスタントは他のさまざまな化学の下位分野にわたって非常に役立つと予想されます。

要約(オリジナル)

We use prompt engineering to guide ChatGPT in the automation of text mining of metal-organic frameworks (MOFs) synthesis conditions from diverse formats and styles of the scientific literature. This effectively mitigates ChatGPT’s tendency to hallucinate information — an issue that previously made the use of Large Language Models (LLMs) in scientific fields challenging. Our approach involves the development of a workflow implementing three different processes for text mining, programmed by ChatGPT itself. All of them enable parsing, searching, filtering, classification, summarization, and data unification with different tradeoffs between labor, speed, and accuracy. We deploy this system to extract 26,257 distinct synthesis parameters pertaining to approximately 800 MOFs sourced from peer-reviewed research articles. This process incorporates our ChemPrompt Engineering strategy to instruct ChatGPT in text mining, resulting in impressive precision, recall, and F1 scores of 90-99%. Furthermore, with the dataset built by text mining, we constructed a machine-learning model with over 86% accuracy in predicting MOF experimental crystallization outcomes and preliminarily identifying important factors in MOF crystallization. We also developed a reliable data-grounded MOF chatbot to answer questions on chemical reactions and synthesis procedures. Given that the process of using ChatGPT reliably mines and tabulates diverse MOF synthesis information in a unified format, while using only narrative language requiring no coding expertise, we anticipate that our ChatGPT Chemistry Assistant will be very useful across various other chemistry sub-disciplines.

arxiv情報

著者 Zhiling Zheng,Oufan Zhang,Christian Borgs,Jennifer T. Chayes,Omar M. Yaghi
発行日 2023-06-20 05:20:29+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cond-mat.mtrl-sci, cs.CL, cs.IR, physics.chem-ph パーマリンク