要約
インターネット技術の急速な発展により、膨大な量のグラフ構造データが生み出されている。グラフマイニングタスクに有効な手法であるグラフニューラルネットワーク(GNN)は、大規模なグラフデータを扱う場合、多大な計算資源コストが発生する。GNNの予測性能を犠牲にすることなく、大規模なグラフデータセットをより小さなデータセットに凝縮するために、データ中心的な方法による解決策が提案されている。しかしながら、計算集約的な2レベル最適化アーキテクチャを通してグラフ構造データを凝縮する既存の取り組みも、膨大な計算コストに悩まされている。本論文では、2値最適化の内部ループでGNNを繰り返し学習する代わりに、グラフ凝縮問題をカーネルリッジ回帰(KRR)タスクとして再構築することを提案する。具体的には、グラフのトポロジーを捕捉し、KRRパラダイムのカーネル関数として機能するStructure-based Neural Tangent Kernel (SNTK)を開発し、グラフ構造データのための新しいデータセット凝縮フレームワーク(GC-NTK)を提案する。包括的な実験により、高い予測性能を維持しながらグラフ凝縮を高速化する我々の提案モデルの有効性が実証された。ソースコードはhttps://github.com/WANGLin0126/GCSNTK。
要約(オリジナル)
The rapid development of Internet technology has given rise to a vast amount of graph-structured data. Graph Neural Networks (GNNs), as an effective method for various graph mining tasks, incurs substantial computational resource costs when dealing with large-scale graph data. A data-centric manner solution is proposed to condense the large graph dataset into a smaller one without sacrificing the predictive performance of GNNs. However, existing efforts condense graph-structured data through a computational intensive bi-level optimization architecture also suffer from massive computation costs. In this paper, we propose reforming the graph condensation problem as a Kernel Ridge Regression (KRR) task instead of iteratively training GNNs in the inner loop of bi-level optimization. More specifically, We propose a novel dataset condensation framework (GC-SNTK) for graph-structured data, where a Structure-based Neural Tangent Kernel (SNTK) is developed to capture the topology of graph and serves as the kernel function in KRR paradigm. Comprehensive experiments demonstrate the effectiveness of our proposed model in accelerating graph condensation while maintaining high prediction performance. The source code is available on https://github.com/WANGLin0126/GCSNTK.
arxiv情報
著者 | Lin Wang,Wenqi Fan,Jiatong Li,Yao Ma,Qing Li |
発行日 | 2024-03-01 06:41:43+00:00 |
arxivサイト | arxiv_id(pdf) |