A data driven approach to classify descriptors based on their efficiency in translating noisy trajectories into physically-relevant information


一般的なアプローチでは、構成単位の軌跡 (生データ) から開始して、適切な記述子を選択して時系列に変換し、それを分析して解釈可能な情報を抽出する必要があります。
水系でよく使用される一般的な記述子と特定の記述子を比較します: 近傍数、分子速度、原子位置のスムーズなオーバーラップ (SOAP)、ローカル環境と近傍シャッフリング (LENS)、方向四面体の順序、および 5 番目の近傍からの距離 ($d_5)
単一点時系列分析のための効率的な教師なし手法であるオニオン クラスタリングを使用して、各記述子について抽出可能な最大の情報を評価し、高次元のメトリクスを介してそれらをランク付けします。
私たちの結果は、SOAP や LENS などの高度な記述子が、信号対雑音比が高いため、従来の記述子よりも優れていることを示しています。
たとえば、$d_5$ は、最初は最も弱いものの中にありましたが、ノイズ除去後にシステムの非局所的な動的複雑性を解決するのに最も効果的になります。


Reconstructing the physical complexity of many-body dynamical systems can be challenging. Starting from the trajectories of their constitutive units (raw data), typical approaches require selecting appropriate descriptors to convert them into time-series, which are then analyzed to extract interpretable information. However, identifying the most effective descriptor is often non-trivial. Here, we report a data-driven approach to compare the efficiency of various descriptors in extracting information from noisy trajectories and translating it into physically relevant insights. As a prototypical system with non-trivial internal complexity, we analyze molecular dynamics trajectories of an atomistic system where ice and water coexist in equilibrium near the solid/liquid transition temperature. We compare general and specific descriptors often used in aqueous systems: number of neighbors, molecular velocities, Smooth Overlap of Atomic Positions (SOAP), Local Environments and Neighbors Shuffling (LENS), Orientational Tetrahedral Order, and distance from the fifth neighbor ($d_5$). Using Onion Clustering — an efficient unsupervised method for single-point time-series analysis — we assess the maximum extractable information for each descriptor and rank them via a high-dimensional metric. Our results show that advanced descriptors like SOAP and LENS outperform classical ones due to higher signal-to-noise ratios. Nonetheless, even simple descriptors can rival or exceed advanced ones after local signal denoising. For example, $d_5$, initially among the weakest, becomes the most effective at resolving the system’s non-local dynamical complexity after denoising. This work highlights the critical role of noise in information extraction from molecular trajectories and offers a data-driven approach to identify optimal descriptors for systems with characteristic internal complexity.


著者 Simone Martino,Domiziano Doria,Chiara Lionello,Matteo Becchi,Giovanni M. Pavan
発行日 2024-12-27 09:56:51+00:00
arxivサイト arxiv_id(pdf)

カテゴリー: cond-mat.mtrl-sci, cs.LG パーマリンク