Plug & Play Directed Evolution of Proteins with Gradient-based Discrete MCMC

要約

タイトル:グラディエントベースの離散MCMCを用いたプラグ&プレイ型プロテインの指向進化
要約:
– 機械学習に基づくタンパク質工学の長年の目的の1つは、既知のタンパク質の機能を改善する新しい変異の発見を促進することです。
– 私たちは、タンパク質言語モデルなどの非教示的モデルと、配列からタンパク質機能を予測する教示的モデルを組み合わせることで、プロテインの進化をシリコン上でサポートするサンプリングフレームワークを導入します。
– これらのモデルを組み合わせることで、未知の変異を評価する能力を向上させ、機能的なタンパク質が含まれると考えられる配列空間の領域に検索を制限することを目指しています。
– 私たちのフレームワークは、定量的に評価されたモデルの微調整や再トレーニングなしに、離散的なタンパク質空間でエキスパート分布を直接構築することでこれを実現します。
– 従来の指向進化の典型であるブルートフォース検索やランダムサンプリングに頼らず、有望な変異を提案するために勾配を使用する高速なMCMCサンプラを導入します。
– 私たちは、広いフィットネス景観や、650Mパラメータのタンパク質言語モデルを含むさまざまな事前トレーニングされた非教示的モデル上でシリコン上での指向進化実験を実施しました。
– 結果は、進化の可能性が高く、野生型タンパク質から複数の変異先の活性度も推定して効率的に変異体を発見できる能力を示しており、私たちのサンプラが機械学習に基づくタンパク質工学の実用的で効果的な新しいパラダイムを提供することを示唆しています。

要約(オリジナル)

A long-standing goal of machine-learning-based protein engineering is to accelerate the discovery of novel mutations that improve the function of a known protein. We introduce a sampling framework for evolving proteins in silico that supports mixing and matching a variety of unsupervised models, such as protein language models, and supervised models that predict protein function from sequence. By composing these models, we aim to improve our ability to evaluate unseen mutations and constrain search to regions of sequence space likely to contain functional proteins. Our framework achieves this without any model fine-tuning or re-training by constructing a product of experts distribution directly in discrete protein space. Instead of resorting to brute force search or random sampling, which is typical of classic directed evolution, we introduce a fast MCMC sampler that uses gradients to propose promising mutations. We conduct in silico directed evolution experiments on wide fitness landscapes and across a range of different pre-trained unsupervised models, including a 650M parameter protein language model. Our results demonstrate an ability to efficiently discover variants with high evolutionary likelihood as well as estimated activity multiple mutations away from a wild type protein, suggesting our sampler provides a practical and effective new paradigm for machine-learning-based protein engineering.

arxiv情報

著者 Patrick Emami,Aidan Perreault,Jeffrey Law,David Biagioni,Peter C. St. John
発行日 2023-04-06 21:02:20+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.LG, q-bio.BM パーマリンク