Bridge-IF: Learning Inverse Protein Folding with Markov Bridges

要約

逆タンパク質フォールディングは、コンピュータによるタンパク質設計における基本的なタスクであり、目的の骨格構造に折り畳まれるタンパク質配列を設計することを目的としています。
このタスクのための機械学習アルゴリズムの開発は大きな成功を収めていますが、主に判別式を採用する一般的なアプローチでは、エラーの蓄積の問題に頻繁に遭遇し、多種多様なもっともらしいシーケンスを捕捉できないことがよくあります。
これらのギャップを埋めるために、我々は、バックボーン構造とタンパク質配列の分布間の確率的依存性を学習するように設計された、逆フォールディングの生成拡散ブリッジ モデルである Bridge-IF を提案します。
具体的には、表現力豊かな構造エンコーダを活用して、構造から導出された個別の有益な事前分布を提案し、この事前分布をネイティブ シーケンスと接続するマルコフ ブリッジを確立します。
推論段階で、Bridge-IF は以前のシーケンスを徐々に改良し、より妥当な設計に到達します。
さらに、マルコフ ブリッジ モデルに再パラメータ化の観点を導入し、そこからより効果的なトレーニングを促進する単純化された損失関数を導き出します。
また、タンパク質言語モデル (PLM) を構造条件で変調してマルコフ ブリッジ プロセスを正確に近似することで、パラメーター効率の高いトレーニングを維持しながら生成パフォーマンスを大幅に向上させます。
十分に確立されたベンチマークに関する広範な実験により、Bridge-IF は配列回復において既存のベースラインを主に上回り、高い折り畳み性を備えた妥当なタンパク質の設計において優れていることが実証されました。
コードは https://github.com/violet-sto/Bridge-IF で入手できます。

要約(オリジナル)

Inverse protein folding is a fundamental task in computational protein design, which aims to design protein sequences that fold into the desired backbone structures. While the development of machine learning algorithms for this task has seen significant success, the prevailing approaches, which predominantly employ a discriminative formulation, frequently encounter the error accumulation issue and often fail to capture the extensive variety of plausible sequences. To fill these gaps, we propose Bridge-IF, a generative diffusion bridge model for inverse folding, which is designed to learn the probabilistic dependency between the distributions of backbone structures and protein sequences. Specifically, we harness an expressive structure encoder to propose a discrete, informative prior derived from structures, and establish a Markov bridge to connect this prior with native sequences. During the inference stage, Bridge-IF progressively refines the prior sequence, culminating in a more plausible design. Moreover, we introduce a reparameterization perspective on Markov bridge models, from which we derive a simplified loss function that facilitates more effective training. We also modulate protein language models (PLMs) with structural conditions to precisely approximate the Markov bridge process, thereby significantly enhancing generation performance while maintaining parameter-efficient training. Extensive experiments on well-established benchmarks demonstrate that Bridge-IF predominantly surpasses existing baselines in sequence recovery and excels in the design of plausible proteins with high foldability. The code is available at https://github.com/violet-sto/Bridge-IF.

arxiv情報

著者 Yiheng Zhu,Jialu Wu,Qiuyi Li,Jiahuan Yan,Mingze Yin,Wei Wu,Mingyang Li,Jieping Ye,Zheng Wang,Jian Wu
発行日 2024-11-04 14:35:14+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, q-bio.BM パーマリンク