Protein Design with Guided Discrete Diffusion

要約

タンパク質設計への一般的なアプローチは、条件付きサンプリングの生成モデルと識別モデルを組み合わせることです。
生成モデルはもっともらしいシーケンスをサンプリングし、識別モデルは適合度の高いシーケンスの検索をガイドします。
条件付きサンプリングにおける広範な成功を考えると、分類器誘導拡散モデリングはタンパク質設計の有望な基盤であり、配列を回復するために逆フォールディングを伴う構造の誘導拡散モデルを開発する人が多くいます。
この研究では、ノイズ除去ネットワークの隠れ状態の勾配に従う離散拡散モデルの誘導方法である拡散最適化サンプリング (NOS) を提案します。
NOS を使用すると、シーケンス空間で直接設計を実行できるようになり、不足したデータや困難な逆設計など、構造ベースの手法の重大な制限を回避できます。
さらに、NOS を使用して、複数の目的と編集ベースの制約を容易にするシーケンス設計のためのベイジアン最適化手順である LaMBO を一般化します。
結果として得られた手法である LaMBO-2 は、顕著性マップの新しいアプリケーションを通じて、限定された編集で離散拡散とより強力なパフォーマンスを可能にします。
私たちは LaMBO-2 を現実世界のタンパク質設計タスクに適用し、局所性と信頼性の制約の下でより高い発現収量と治療標的への結合親和性を実現する抗体を最適化し、探索的な in vitro 実験で 97% の発現率と 25% の結合率を達成しました。

要約(オリジナル)

A popular approach to protein design is to combine a generative model with a discriminative model for conditional sampling. The generative model samples plausible sequences while the discriminative model guides a search for sequences with high fitness. Given its broad success in conditional sampling, classifier-guided diffusion modeling is a promising foundation for protein design, leading many to develop guided diffusion models for structure with inverse folding to recover sequences. In this work, we propose diffusioN Optimized Sampling (NOS), a guidance method for discrete diffusion models that follows gradients in the hidden states of the denoising network. NOS makes it possible to perform design directly in sequence space, circumventing significant limitations of structure-based methods, including scarce data and challenging inverse design. Moreover, we use NOS to generalize LaMBO, a Bayesian optimization procedure for sequence design that facilitates multiple objectives and edit-based constraints. The resulting method, LaMBO-2, enables discrete diffusions and stronger performance with limited edits through a novel application of saliency maps. We apply LaMBO-2 to a real-world protein design task, optimizing antibodies for higher expression yield and binding affinity to a therapeutic target under locality and liability constraints, with 97% expression rate and 25% binding rate in exploratory in vitro experiments.

arxiv情報

著者 Nate Gruver,Samuel Stanton,Nathan C. Frey,Tim G. J. Rudner,Isidro Hotzel,Julien Lafrance-Vanasse,Arvind Rajpal,Kyunghyun Cho,Andrew Gordon Wilson
発行日 2023-05-31 16:31:24+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, q-bio.BM パーマリンク