AlphaFold Meets Flow Matching for Generating Protein Ensembles

要約

タンパク質の生物学的機能は、しばしば動的な構造アンサンブルに依存している。本研究では、タンパク質のコンフォメーションランドスケープを学習し、サンプリングするためのフローベースの生成モデリングアプローチを開発する。AlphaFoldやESMFoldのような高精度な単一状態予測器を再利用し、独自のフローマッチングフレームワークの下でそれらを微調整することで、AlphaFlowやESMFlowと呼ばれる、配列結合されたタンパク質構造の生成モデルを得る。PDB上で学習・評価した場合、我々の手法は、MSAサブサンプリングによるAlphaFoldと比較して、精度と多様性の優れた組み合わせを提供する。さらに、全原子MDから得られたアンサンブルで学習させた場合、本手法は、未知のタンパク質のコンフォメーションの柔軟性、位置分布、および高次のアンサンブル観測値を正確に捉えます。さらに、本手法は、MDの軌跡を再現するよりも速い壁時計収束で静的PDB構造を特定の平衡特性まで多様化することができ、高価な物理ベースのシミュレーションの代理としての可能性を示している。コードはhttps://github.com/bjing2016/alphaflow。

要約(オリジナル)

The biological functions of proteins often depend on dynamic structural ensembles. In this work, we develop a flow-based generative modeling approach for learning and sampling the conformational landscapes of proteins. We repurpose highly accurate single-state predictors such as AlphaFold and ESMFold and fine-tune them under a custom flow matching framework to obtain sequence-conditoned generative models of protein structure called AlphaFlow and ESMFlow. When trained and evaluated on the PDB, our method provides a superior combination of precision and diversity compared to AlphaFold with MSA subsampling. When further trained on ensembles from all-atom MD, our method accurately captures conformational flexibility, positional distributions, and higher-order ensemble observables for unseen proteins. Moreover, our method can diversify a static PDB structure with faster wall-clock convergence to certain equilibrium properties than replicate MD trajectories, demonstrating its potential as a proxy for expensive physics-based simulations. Code is available at https://github.com/bjing2016/alphaflow.

arxiv情報

著者 Bowen Jing,Bonnie Berger,Tommi Jaakkola
発行日 2024-09-02 22:43:33+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.LG, q-bio.BM パーマリンク