要約
ペプチドは遍在する重要な生物学的に由来する分子であり、自己集合して幅広い構造を形成することがわかっています。
広範な研究により、これらのシステムの自己集合挙動に対する内部化学組成と外部環境刺激の両方の影響が調査されています。
しかし、この豊富な文献データを収集し、これらの実験的要因を集合的に検査して、タンパク質の自己集合挙動を支配する基本的な規則の全体像を提供する体系的な研究はまだありません。
この研究では、人間の専門家による手動処理と大規模な言語モデルによって促進される文献マイニングを組み合わせて、ペプチド アセンブリ データベースを厳選します。
その結果、ペプチド配列、実験条件、対応する自己組織化段階に関する情報を含む 1,000 を超える実験データ エントリを収集しました。
収集されたデータを利用して、ML モデルがトレーニングおよび評価され、ペプチド集合段階の分類において優れた精度 (>80\%) と効率が実証されました。
さらに、開発したデータセットを使用してペプチド文献マイニング用の GPT モデルを微調整しました。これは、事前トレーニングされたモデルと比較して、学術出版物から情報を抽出する際に著しく優れたパフォーマンスを示します。
このワークフローは、実験作業のガイドを通じて潜在的な自己集合ペプチド候補を探索する際の効率を大幅に向上させると同時に、ペプチドの自己集合を支配するメカニズムについての理解を深めることができることを発見しました。
そうすることで、センシング、触媒、生体材料などの幅広い用途に新しい構造を利用できるようになります。
要約(オリジナル)
Peptides are ubiquitous and important biologically derived molecules, that have been found to self-assemble to form a wide array of structures. Extensive research has explored the impacts of both internal chemical composition and external environmental stimuli on the self-assembly behaviour of these systems. However, there is yet to be a systematic study that gathers this rich literature data and collectively examines these experimental factors to provide a global picture of the fundamental rules that govern protein self-assembly behavior. In this work, we curate a peptide assembly database through a combination of manual processing by human experts and literature mining facilitated by a large language model. As a result, we collect more than 1,000 experimental data entries with information about peptide sequence, experimental conditions and corresponding self-assembly phases. Utilizing the collected data, ML models are trained and evaluated, demonstrating excellent accuracy (>80\%) and efficiency in peptide assembly phase classification. Moreover, we fine-tune our GPT model for peptide literature mining with the developed dataset, which exhibits markedly superior performance in extracting information from academic publications relative to the pre-trained model. We find that this workflow can substantially improve efficiency when exploring potential self-assembling peptide candidates, through guiding experimental work, while also deepening our understanding of the mechanisms governing peptide self-assembly. In doing so, novel structures can be accessed for a range of applications including sensing, catalysis and biomaterials.
arxiv情報
| 著者 | Zhenze Yang,Sarah K. Yorke,Tuomas P. J. Knowles,Markus J. Buehler |
| 発行日 | 2024-11-08 09:14:22+00:00 |
| arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google