要約
与えられた野生型配列から始めて、高い適合度をもつタンパク質配列を見つけることを目的としたタンパク質配列工学の問題を検討します。
指向進化は、変異体を生成し、実験的フィードバックによって選択する反復プロセスを備えた、この分野で支配的なパラダイムです。
私たちは、大規模言語モデル (LLM) が、大量のテキストでトレーニングされているにもかかわらず、密かにタンパク質配列最適化装置であることを実証します。
LLM は、指向性進化手法を使用して、パレートおよび実験予算制約付きの最適化を通じてタンパク質工学を実行でき、合成フィットネスランドスケープと実験フィットネスランドスケープの両方で成功を実証します。
要約(オリジナル)
We consider the protein sequence engineering problem, which aims to find protein sequences with high fitness levels, starting from a given wild-type sequence. Directed evolution has been a dominating paradigm in this field which has an iterative process to generate variants and select via experimental feedback. We demonstrate large language models (LLMs), despite being trained on massive texts, are secretly protein sequence optimizers. With a directed evolutionary method, LLM can perform protein engineering through Pareto and experiment-budget constrained optimization, demonstrating success on both synthetic and experimental fitness landscapes.
arxiv情報
著者 | Yinkai Wang,Jiaxing He,Yuanqi Du,Xiaohui Chen,Jianan Canal Li,Li-Ping Liu,Xiaolin Xu,Soha Hassoun |
発行日 | 2025-01-17 15:22:00+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google