Learning Collective Variables for Protein Folding with Labeled Data Augmentation through Geodesic Interpolation

要約

分子動力学(MD)シミュレーションでは、タンパク質のフォールディングのような稀な事象は、通常、強化されたサンプリング技術によって研究される。CVを表現することは非常に重要であるが、特定の事象(例えば、アンフォールド状態からフォールディング状態への遷移)に関する情報がないために、しばしば妨げられる。我々は、物理学にヒントを得たメトリックスを用いて、タンパク質のフォールディング遷移に似た測地線補間を生成することで、真の遷移状態のサンプルがなくてもサンプリング効率を向上させる、シミュレーション不要のデータ増強戦略を提案する。補間進行パラメータを活用し、CVモデルに対する回帰ベースの学習スキームを導入することで、遷移状態データが限られていてノイズが多い場合に、分類器ベースの手法よりも優れた性能を発揮する。

要約(オリジナル)

In molecular dynamics (MD) simulations, rare events, such as protein folding, are typically studied by means of enhanced sampling techniques, most of which rely on the definition of a collective variable (CV) along which the acceleration occurs. Obtaining an expressive CV is crucial, but often hindered by the lack of information about the particular event, e.g., the transition from unfolded to folded conformation. We propose a simulation-free data augmentation strategy using physics-inspired metrics to generate geodesic interpolations resembling protein folding transitions, thereby improving sampling efficiency without true transition state samples. Leveraging interpolation progress parameters, we introduce a regression-based learning scheme for CV models, which outperforms classifier-based methods when transition state data is limited and noisy

arxiv情報

著者 Soojung Yang,Juno Nam,Johannes C. B. Dietschreit,Rafael Gómez-Bombarelli
発行日 2024-02-02 16:35:02+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.LG, physics.chem-ph, q-bio.BM パーマリンク