Str2Str: A Score-based Framework for Zero-shot Protein Conformation Sampling

要約

タンパク質の動的な性質は、その生物学的機能や特性を決定するために非常に重要であり、モンテカルロ (MC) および分子動力学 (MD) シミュレーションは、そのような現象を研究するための主要なツールとして機能します。
経験的に導出された力場を利用することにより、MC または MD シミュレーションは、マルコフ連鎖またはニュートン力学を介してシステムを数値的に進化させて構造空間を探索します。
ただし、フォース フィールドの高エネルギー障壁により、まれなイベントによって両方の方法の探索が妨げられ、徹底的な実行が行われずにアンサンブルが不適切にサンプリングされる可能性があります。
既存の学習ベースのアプローチは、直接サンプリングを実行しますが、トレーニングのためにターゲット固有のシミュレーション データに大きく依存しているため、データ取得コストが高く、一般化性が低いという問題があります。
シミュレーテッドアニーリングにインスピレーションを得て、我々は、ロトトランスレーション等変特性を備えたゼロショット構造サンプリングが可能な新しい構造間トランスレーションフレームワークである Str2Str を提案します。
私たちの方法は、一般的な結晶構造でトレーニングされた償却ノイズ除去スコア マッチング目標を活用しており、トレーニングと推論の両方でシミュレーション データに依存しません。
いくつかのベンチマークタンパク質システムにわたる実験結果は、Str2Str が以前の最先端の生成構造予測モデルよりも優れたパフォーマンスを示し、長時間の MD シミュレーションと比較して桁違いに高速に実行できることを示しています。
私たちのオープンソース実装は https://github.com/lujiarui/Str2Str で入手できます。

要約(オリジナル)

The dynamic nature of proteins is crucial for determining their biological functions and properties, for which Monte Carlo (MC) and molecular dynamics (MD) simulations stand as predominant tools to study such phenomena. By utilizing empirically derived force fields, MC or MD simulations explore the conformational space through numerically evolving the system via Markov chain or Newtonian mechanics. However, the high-energy barrier of the force fields can hamper the exploration of both methods by the rare event, resulting in inadequately sampled ensemble without exhaustive running. Existing learning-based approaches perform direct sampling yet heavily rely on target-specific simulation data for training, which suffers from high data acquisition cost and poor generalizability. Inspired by simulated annealing, we propose Str2Str, a novel structure-to-structure translation framework capable of zero-shot conformation sampling with roto-translation equivariant property. Our method leverages an amortized denoising score matching objective trained on general crystal structures and has no reliance on simulation data during both training and inference. Experimental results across several benchmarking protein systems demonstrate that Str2Str outperforms previous state-of-the-art generative structure prediction models and can be orders of magnitude faster compared to long MD simulations. Our open-source implementation is available at https://github.com/lujiarui/Str2Str

arxiv情報

著者 Jiarui Lu,Bozitao Zhong,Zuobai Zhang,Jian Tang
発行日 2024-02-15 16:59:42+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, q-bio.BM, q-bio.QM パーマリンク