Guide your favorite protein sequence generative model

要約

シーケンス上の生成機械学習モデルは、タンパク質工学を変換しています。
ただし、プラグアンドプレイの方法で、実験データなどの補助情報にこれらのモデルを条件付けるための原則的なフレームワークは存在しません。
ここでは、単一のフレームワークの下で幅広いクラスのタンパク質生成モデルを統合することにより、条件付けの原則的で一般的な方法であるプロテンシドを提示します。
2つのタンパク質生成モデル、ProteinMpnnとESM3を導くことにより、プロテイングイドの適用可能性を実証し、アミノ酸と構造トークンシーケンスを生成し、安定性、酵素クラス、キャスラベル折り目などのいくつかのユーザー指定特性を条件付けします。
また、逆折りたたみモデルを備えたプロテンシドと、高活性のためにアデニンベースエディターシーケンスを設計するための独自の実験アッセイを使用しました。

要約(オリジナル)

Generative machine learning models on sequences are transforming protein engineering. However, no principled framework exists for conditioning these models on auxiliary information, such as experimental data, in a plug-and-play manner. Herein, we present ProteinGuide — a principled and general method for conditioning — by unifying a broad class of protein generative models under a single framework. We demonstrate the applicability of ProteinGuide by guiding two protein generative models, ProteinMPNN and ESM3, to generate amino acid and structure token sequences, conditioned on several user-specified properties such as enhanced stability, enzyme classes, and CATH-labeled folds. We also used ProteinGuide with inverse folding models and our own experimental assay to design adenine base editor sequences for high activity.

arxiv情報

著者 Junhao Xiong,Hunter Nisonoff,Maria Lukarska,Ishan Gaur,Luke M. Oltrogge,David F. Savage,Jennifer Listgarten
発行日 2025-05-27 17:43:30+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, q-bio.BM パーマリンク