Molecular Topological Profile (MOLTOP) — Simple and Strong Baseline for Molecular Graph Classification

要約

分子グラフ分類におけるトポロジカル記述子の有効性を再検討し、シンプルでありながら強力なベースラインを設計します。
私たちは、エッジ記述子のヒストグラム集約と原子番号と結合タイプのワンホット エンコーディングを採用した特徴エンジニアリングへのシンプルなアプローチを、ランダム フォレスト分類器と組み合わせることで、グラフ ニューラル ネットワーク (GNN) の強力なベースラインを確立できることを実証します。
新しいアルゴリズムである分子トポロジカル プロファイル (MOLTOP) は、エッジ間の中心性、調整されたランド インデックス、および SCAN 構造類似性スコアを統合します。
このアプローチは、最新の GNN と比較して著しく競争力があると同時に、シンプル、高速、低分散、ハイパーパラメーター不要であることが証明されています。
私たちのアプローチは、Open Graph Benchmark が提供する公正な評価プロトコルを使用して、MoleculeNet データセットで厳密にテストされています。
さらに、Long Range Graph Benchmark からのペプチド分類タスクにおけるドメイン外生成機能も示します。
11 のベンチマーク データセットにわたる評価により、MOLTOP の強力な識別能力が明らかになり、グラフの一部のクラスでは $1$-WL テスト、さらには $3$-WL テストを上回りました。
私たちの結論は、私たちが提案するような記述子ベースのベースラインは、GNN ドメインの進歩を正確に評価するために依然として重要であるということです。

要約(オリジナル)

We revisit the effectiveness of topological descriptors for molecular graph classification and design a simple, yet strong baseline. We demonstrate that a simple approach to feature engineering – employing histogram aggregation of edge descriptors and one-hot encoding for atomic numbers and bond types – when combined with a Random Forest classifier, can establish a strong baseline for Graph Neural Networks (GNNs). The novel algorithm, Molecular Topological Profile (MOLTOP), integrates Edge Betweenness Centrality, Adjusted Rand Index and SCAN Structural Similarity score. This approach proves to be remarkably competitive when compared to modern GNNs, while also being simple, fast, low-variance and hyperparameter-free. Our approach is rigorously tested on MoleculeNet datasets using fair evaluation protocol provided by Open Graph Benchmark. We additionally show out-of-domain generation capabilities on peptide classification task from Long Range Graph Benchmark. The evaluations across eleven benchmark datasets reveal MOLTOP’s strong discriminative capabilities, surpassing the $1$-WL test and even $3$-WL test for some classes of graphs. Our conclusion is that descriptor-based baselines, such as the one we propose, are still crucial for accurately assessing advancements in the GNN domain.

arxiv情報

著者 Jakub Adamczyk,Wojciech Czech
発行日 2024-07-23 17:58:52+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, q-bio.QM パーマリンク