Learning Collective Variables with Synthetic Data Augmentation through Physics-Inspired Geodesic Interpolation

要約

分子動力学シミュレーションでは、タンパク質のフォールディングなどのまれなイベントは、通常、強化されたサンプリング技術を使用して研究されます。そのほとんどは、加速が発生する集団変数 (CV) の定義に基づいています。
表現力豊かな CV を取得することは非常に重要ですが、展開された立体構造から折りたたまれた立体構造への移行など、特定のイベントに関する情報の欠如によって妨げられることがよくあります。
私たちは、物理学にヒントを得たメトリクスを使用して、タンパク質の折り畳み遷移に似た測地線補間を生成するシミュレーション不要のデータ拡張戦略を提案します。これにより、真の遷移状態サンプルがなくてもサンプリング効率が向上します。
この新しいデータは、分類子ベースの手法の精度を向上させるために使用できます。
あるいは、内挿進行パラメータを利用して、CV モデルの回帰ベースの学習スキームを採用することもできます。

要約(オリジナル)

In molecular dynamics simulations, rare events, such as protein folding, are typically studied using enhanced sampling techniques, most of which are based on the definition of a collective variable (CV) along which acceleration occurs. Obtaining an expressive CV is crucial, but often hindered by the lack of information about the particular event, e.g., the transition from unfolded to folded conformation. We propose a simulation-free data augmentation strategy using physics-inspired metrics to generate geodesic interpolations resembling protein folding transitions, thereby improving sampling efficiency without true transition state samples. This new data can be used to improve the accuracy of classifier-based methods. Alternatively, a regression-based learning scheme for CV models can be adopted by leveraging the interpolation progress parameter.

arxiv情報

著者 Soojung Yang,Juno Nam,Johannes C. B. Dietschreit,Rafael Gómez-Bombarelli
発行日 2024-07-19 17:48:10+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, physics.chem-ph, q-bio.BM パーマリンク