Large Scale Traning of Graph Neural Networks for Optimal Markov-Chain Partitioning Using the Kemeny Constant

要約

従来のクラスタリング アルゴリズムは、グラフ内の複雑な関係を捕捉して任意のクラスタリング基準に一般化するのに苦労することがよくあります。
グラフ データの表現を学習するための強力なフレームワークとしてのグラフ ニューラル ネットワーク (GNN) の出現により、問題を解決するための新しいアプローチが提供されます。
これまでの研究では、GNN がさまざまな基準を使用して分割を提案できることが示されていますが、これらのアプローチはまだマルコフ連鎖や運動ネットワーク上で動作するように拡張されていません。
これらは分子システムの研究で頻繁に発生し、生化学モデリングコミュニティにとって特に興味深いものです。
この研究では、キネティック ネットワークとして記述されるマルコフ連鎖のグラフ分割問題に取り組むために、いくつかの GNN ベースのアーキテクチャを提案します。
このアプローチは、提案された分割によってケメニー定数がどの程度変化するかを最小限に抑えることを目的としています。
私たちは、エンコーダ/デコーダ アーキテクチャの使用を提案し、このコンテキストにおいて、線形層を備えた単純な GraphSAGE ベースの GNN が、より大規模で表現力豊かなアテンション ベースのモデルをどのように上回るパフォーマンスを発揮できるかを示します。
概念の実証として、最初に、ランダムに接続されたグラフをクラスター化するこのメソッドの機能を実証します。
また、運動ネットワークとして 1D 自由エネルギー プロファイルに対応する線形チェーン アーキテクチャも使用します。
続いて、分子動力学から得られたデータセットの実験を通じて、この方法の有効性を実証します。
この方法のパフォーマンスを、PCCA+ などの他のパーティショニング手法と比較します。
私たちは、特徴とハイパーパラメータの選択の重要性を調査し、最適なグラフ分割を発見するための GNN の大規模並列トレーニングの一般的な戦略を提案します。

要約(オリジナル)

Traditional clustering algorithms often struggle to capture the complex relationships within graphs and generalise to arbitrary clustering criteria. The emergence of graph neural networks (GNNs) as a powerful framework for learning representations of graph data provides new approaches to solving the problem. Previous work has shown GNNs to be capable of proposing partitionings using a variety of criteria, however, these approaches have not yet been extended to work on Markov chains or kinetic networks. These arise frequently in the study of molecular systems and are of particular interest to the biochemical modelling community. In this work, we propose several GNN-based architectures to tackle the graph partitioning problem for Markov Chains described as kinetic networks. This approach aims to minimize how much a proposed partitioning changes the Kemeny constant. We propose using an encoder-decoder architecture and show how simple GraphSAGE-based GNNs with linear layers can outperform much larger and more expressive attention-based models in this context. As a proof of concept, we first demonstrate the method’s ability to cluster randomly connected graphs. We also use a linear chain architecture corresponding to a 1D free energy profile as our kinetic network. Subsequently, we demonstrate the effectiveness of our method through experiments on a data set derived from molecular dynamics. We compare the performance of our method to other partitioning techniques such as PCCA+. We explore the importance of feature and hyperparameter selection and propose a general strategy for large-scale parallel training of GNNs for discovering optimal graph partitionings.

arxiv情報

著者 Sam Alexander Martino,João Morado,Chenghao Li,Zhenghao Lu,Edina Rosta
発行日 2023-12-22 17:19:50+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, physics.bio-ph, physics.comp-ph パーマリンク