Spectral Greedy Coresets for Graph Neural Networks

要約

ノード分類タスクにおける大規模なグラフの遍在は、グラフ ニューラル ネットワーク (GNN) の実世界への応用を著しく妨げています。
ノードのサンプリング、グラフの粗密化、およびデータセットの圧縮は、データ効率を高めるための効果的な戦略です。
ただし、グラフ ノードの相互依存性により、データ サンプルのサブセットを選択するコアセット選択は、大きなグラフでの GNN トレーニングを高速化するためにうまく適用されておらず、特別な扱いが必要です。
この論文では、GNN のグラフ コアセットを研究し、スペクトル埋め込みに基づいてエゴグラフ (つまり、ノードの周囲の近傍サブグラフ) を選択することで相互依存性の問題を回避します。
我々は、GNN のコアセット選択問題を 2 つのフェーズに分解します。広く普及したエゴ グラフの粗い選択と、トポロジを多様化するための洗練された選択です。
私たちは両方の目的をほぼ最適化する貪欲なアルゴリズムを設計します。
当社のスペクトル グリーディ グラフ コアセット (SGGC) は、数百万のノードを含むグラフにスケールし、モデルの事前トレーニングの必要性を排除し、低相同性グラフに適用します。
10 個のデータセットに対する広範な実験により、SGGC が他のコアセット手法を大幅に上回り、GNN アーキテクチャ全体でよく一般化され、グラフ圧縮よりもはるかに高速であることが実証されました。

要約(オリジナル)

The ubiquity of large-scale graphs in node-classification tasks significantly hinders the real-world applications of Graph Neural Networks (GNNs). Node sampling, graph coarsening, and dataset condensation are effective strategies for enhancing data efficiency. However, owing to the interdependence of graph nodes, coreset selection, which selects subsets of the data examples, has not been successfully applied to speed up GNN training on large graphs, warranting special treatment. This paper studies graph coresets for GNNs and avoids the interdependence issue by selecting ego-graphs (i.e., neighborhood subgraphs around a node) based on their spectral embeddings. We decompose the coreset selection problem for GNNs into two phases: a coarse selection of widely spread ego graphs and a refined selection to diversify their topologies. We design a greedy algorithm that approximately optimizes both objectives. Our spectral greedy graph coreset (SGGC) scales to graphs with millions of nodes, obviates the need for model pre-training, and applies to low-homophily graphs. Extensive experiments on ten datasets demonstrate that SGGC outperforms other coreset methods by a wide margin, generalizes well across GNN architectures, and is much faster than graph condensation.

arxiv情報

著者 Mucong Ding,Yinhan He,Jundong Li,Furong Huang
発行日 2024-05-27 17:52:12+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, stat.ML パーマリンク