Extracting Structured Seed-Mediated Gold Nanorod Growth Procedures from Literature with GPT-3

要約

タイトル:GPT-3を用いた文献からの構造化されたシード媒介ゴールドナノロッド成長手順の抽出

要約:
– ゴールドナノロッドは多くの研究の対象になっているが、その形状と光学的性質を制御する経路は大部分が未だ経験的に理解されている。
– 合成時にさまざまな試薬が同時に存在して相互作用することにより、これらの性質を制御することが明らかであるが、合成空間を探索するための計算および実験アプローチは実際には扱いにくいか、時間がかかりすぎる場合がある。
– 科学的文献に埋め込まれた合成情報の豊富な情報を活用し、関連する構造化データを自動かつ高スループットで抽出するためのツールを開発することで、代替手段が明確に示される。
– その目的を達成するため、強力なGPT-3言語モデルを使用して、金ナノロッドの構造化された多段階シード媒介成長手順と結果を、非構造化の科学テキストから抽出するアプローチを提案する。
– GPT-3 提示を用いた文儀入力から JSON文書の合成テンプレートを予測するようにファインチューニングされ、全体の精度は86%である。
– 同時にエンティティ抽出および関係抽出を実行していることを考慮すると、パフォーマンスは注目に値する。
– 1137件の論文から抽出された11,644のエンティティからなるデータセットを提示しており、合計332の完全なシード媒介ゴールドナノロッド成長手順と結果を持つ268の論文を得た。

要約(オリジナル)

Although gold nanorods have been the subject of much research, the pathways for controlling their shape and thereby their optical properties remain largely heuristically understood. Although it is apparent that the simultaneous presence of and interaction between various reagents during synthesis control these properties, computational and experimental approaches for exploring the synthesis space can be either intractable or too time-consuming in practice. This motivates an alternative approach leveraging the wealth of synthesis information already embedded in the body of scientific literature by developing tools to extract relevant structured data in an automated, high-throughput manner. To that end, we present an approach using the powerful GPT-3 language model to extract structured multi-step seed-mediated growth procedures and outcomes for gold nanorods from unstructured scientific text. GPT-3 prompt completions are fine-tuned to predict synthesis templates in the form of JSON documents from unstructured text input with an overall accuracy of $86\%$. The performance is notable, considering the model is performing simultaneous entity recognition and relation extraction. We present a dataset of 11,644 entities extracted from 1,137 papers, resulting in 268 papers with at least one complete seed-mediated gold nanorod growth procedure and outcome for a total of 332 complete procedures.

arxiv情報

著者 Nicholas Walker,John Dagdelen,Kevin Cruse,Sanghoon Lee,Samuel Gleason,Alexander Dunn,Gerbrand Ceder,A. Paul Alivisatos,Kristin A. Persson,Anubhav Jain
発行日 2023-04-26 22:21:33+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.CL, cs.IR, physics.app-ph パーマリンク