Dynamic PDB: A New Dataset and a SE(3) Model Extension by Integrating Dynamic Behaviors and Physical Properties in Protein Structures

要約

タンパク質の静的構造の収集と予測は大幅に進歩しているにもかかわらず、最も重要な特性の 1 つであるタンパク質の動的挙動は、先行研究ではほとんど見落とされてきました。
この見落としは、動的タンパク質データセットの可用性が限られていること、多様性、および異種性が原因である可能性があります。
このギャップに対処するために、我々は、動的データと追加の物理的特性を統合することによって、タンパク質データバンク (PDB) などの既存の権威ある静的 3D タンパク質構造データベースを強化することを提案します。
具体的には、約 12.6,000 個のタンパク質を含む大規模なデータセット Dynamic PDB を導入します。各タンパク質には、構造変化を捕捉するために 1 マイクロ秒にわたる全原子分子動力学 (MD) シミュレーションが適用されます。
さらに、原子の速度と力、タンパク質の位置エネルギーと運動エネルギー、シミュレーション環境の温度など、シミュレーション全体を通じて 1 ピコ秒間隔で記録される一連の包括的な物理特性を提供します。
ベンチマークの目的で、軌道予測タスク用に提案されたデータセットで最先端の手法を評価します。
タンパク質の動力学および関連するモデル設計の研究において、より豊富な物理的特性を統合することの価値を実証するために、SE(3) 拡散モデルに基づいたアプローチをベースにし、これらの物理的特性を軌道予測プロセスに組み込みます。
予備的な結果は、提案された物理的特性が考慮される場合、SE(3) モデルのこの直接的な拡張により、MAE および RMSD によって測定される精度が向上することが示されています。

要約(オリジナル)

Despite significant progress in static protein structure collection and prediction, the dynamic behavior of proteins, one of their most vital characteristics, has been largely overlooked in prior research. This oversight can be attributed to the limited availability, diversity, and heterogeneity of dynamic protein datasets. To address this gap, we propose to enhance existing prestigious static 3D protein structural databases, such as the Protein Data Bank (PDB), by integrating dynamic data and additional physical properties. Specifically, we introduce a large-scale dataset, Dynamic PDB, encompassing approximately 12.6K proteins, each subjected to all-atom molecular dynamics (MD) simulations lasting 1 microsecond to capture conformational changes. Furthermore, we provide a comprehensive suite of physical properties, including atomic velocities and forces, potential and kinetic energies of proteins, and the temperature of the simulation environment, recorded at 1 picosecond intervals throughout the simulations. For benchmarking purposes, we evaluate state-of-the-art methods on the proposed dataset for the task of trajectory prediction. To demonstrate the value of integrating richer physical properties in the study of protein dynamics and related model design, we base our approach on the SE(3) diffusion model and incorporate these physical properties into the trajectory prediction process. Preliminary results indicate that this straightforward extension of the SE(3) model yields improved accuracy, as measured by MAE and RMSD, when the proposed physical properties are taken into consideration.

arxiv情報

著者 Ce Liu,Jun Wang,Zhiqiang Cai,Yingxu Wang,Huizhen Kuang,Kaihui Cheng,Liwei Zhang,Qingkun Su,Yining Tang,Fenglei Cao,Limei Han,Siyu Zhu,Yuan Qi
発行日 2024-08-22 14:06:01+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, q-bio.BM パーマリンク