要約
希望する機能や性質を持つタンパク質を条件付きで生成することは、生成モデルの重要な目標である。言語モデルのプロンプトに基づく既存の手法は、目的の酵素ファミリーのような、目的の機能性を条件としたタンパク質を生成することができる。しかし、これらの方法は単純なトークン化された条件付けに限定されており、未知の機能への一般化は示されていない。本研究では、タンパク質言語モデルへの適応を用いて、タンパク質を条件付きで生成するアプローチであるProCALM(Protein Conditionally Adapted Language Model)を提案する。ProCALMの具体的な実装としては、ProGen2を微調整し、酵素機能と分類学の条件付け表現を取り入れる。ProCALMは、ターゲット酵素ファミリーから条件付きで配列を生成する既存の手法にマッチする。印象的なことに、ProCALMは酵素機能と分類学の共同分布の範囲内でも生成することができ、稀で未知の酵素ファミリーと分類学に一般化することができる。全体として、ProCALMは柔軟で計算効率の高いアプローチであり、幅広い生成言語モデルに拡張できることが期待される。
要約(オリジナル)
The conditional generation of proteins with desired functions and/or properties is a key goal for generative models. Existing methods based on prompting of language models can generate proteins conditioned on a target functionality, such as a desired enzyme family. However, these methods are limited to simple, tokenized conditioning and have not been shown to generalize to unseen functions. In this study, we propose ProCALM (Protein Conditionally Adapted Language Model), an approach for the conditional generation of proteins using adapters to protein language models. Our specific implementation of ProCALM involves finetuning ProGen2 to incorporate conditioning representations of enzyme function and taxonomy. ProCALM matches existing methods at conditionally generating sequences from target enzyme families. Impressively, it can also generate within the joint distribution of enzymatic function and taxonomy, and it can generalize to rare and unseen enzyme families and taxonomies. Overall, ProCALM is a flexible and computationally efficient approach, and we expect that it can be extended to a wide range of generative language models.
arxiv情報
著者 | Jason Yang,Aadyot Bhatnagar,Jeffrey A. Ruffolo,Ali Madani |
発行日 | 2024-10-04 17:41:47+00:00 |
arxivサイト | arxiv_id(pdf) |