A data driven approach to classify descriptors based on their efficiency in translating noisy trajectories into physically-relevant information

要約

多体力学システムの物理的複雑さを再構築することは困難な場合があります。
一般的なアプローチでは、構成単位の軌跡 (生データ) から開始して、適切な記述子を選択して時系列に変換し、それを分析して解釈可能な情報を抽出する必要があります。
ただし、最も効果的な記述子を特定することは、多くの場合簡単ではありません。
ここでは、ノイズの多い軌道から情報を抽出し、それを物理的に関連する洞察に変換する際のさまざまな記述子の効率を比較する、データ駆動型のアプローチを報告します。
自明ではない内部複雑性を持つ典型的な系として、固体/液体転移温度付近で氷と水が平衡状態で共存する原子系の分子動力学軌跡を解析します。
水系でよく使用される一般的な記述子と特定の記述子を比較します: 近傍数、分子速度、原子位置のスムーズなオーバーラップ (SOAP)、ローカル環境と近傍シャッフリング (LENS)、方向四面体の順序、および 5 番目の近傍からの距離 ($d_5)
$)。
単一点時系列分析のための効率的な教師なし手法であるオニオン クラスタリングを使用して、各記述子について抽出可能な最大の情報を評価し、高次元のメトリクスを介してそれらをランク付けします。
私たちの結果は、SOAP や LENS などの高度な記述子が、信号対雑音比が高いため、従来の記述子よりも優れていることを示しています。
それにもかかわらず、ローカル信号ノイズ除去後は、単純な記述子でも高度な記述子に匹敵するか、それを超える可能性があります。
たとえば、$d_5$ は、最初は最も弱いものの中にありましたが、ノイズ除去後にシステムの非局所的な動的複雑性を解決するのに最も効果的になります。
この研究は、分子軌道からの情報抽出におけるノイズの重要な役割を強調し、特徴的な内部複雑性を持つシステムに最適な記述子を特定するためのデータ駆動型アプローチを提供します。

要約(オリジナル)

Reconstructing the physical complexity of many-body dynamical systems can be challenging. Starting from the trajectories of their constitutive units (raw data), typical approaches require selecting appropriate descriptors to convert them into time-series, which are then analyzed to extract interpretable information. However, identifying the most effective descriptor is often non-trivial. Here, we report a data-driven approach to compare the efficiency of various descriptors in extracting information from noisy trajectories and translating it into physically relevant insights. As a prototypical system with non-trivial internal complexity, we analyze molecular dynamics trajectories of an atomistic system where ice and water coexist in equilibrium near the solid/liquid transition temperature. We compare general and specific descriptors often used in aqueous systems: number of neighbors, molecular velocities, Smooth Overlap of Atomic Positions (SOAP), Local Environments and Neighbors Shuffling (LENS), Orientational Tetrahedral Order, and distance from the fifth neighbor ($d_5$). Using Onion Clustering — an efficient unsupervised method for single-point time-series analysis — we assess the maximum extractable information for each descriptor and rank them via a high-dimensional metric. Our results show that advanced descriptors like SOAP and LENS outperform classical ones due to higher signal-to-noise ratios. Nonetheless, even simple descriptors can rival or exceed advanced ones after local signal denoising. For example, $d_5$, initially among the weakest, becomes the most effective at resolving the system’s non-local dynamical complexity after denoising. This work highlights the critical role of noise in information extraction from molecular trajectories and offers a data-driven approach to identify optimal descriptors for systems with characteristic internal complexity.

arxiv情報

著者 Simone Martino,Domiziano Doria,Chiara Lionello,Matteo Becchi,Giovanni M. Pavan
発行日 2024-11-19 15:39:25+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cond-mat.mtrl-sci, cs.LG パーマリンク