要約
グラフ圧縮は、その上でトレーニングされたグラフ ニューラル ネットワーク (GNN) のパフォーマンスを犠牲にすることなく、コンパクトなグラフ データセットを合成することで大規模なグラフ データセットのサイズを削減することを目的としています。これにより、GNN のトレーニングにかかる計算コストの削減に光が当てられました。
それにもかかわらず、既存の方法では、特定のデータセットの元のグラフを正確に複製することができず、可逆圧縮という目的を達成できないことがよくあります。
この現象を理解するために、潜在的な理由を調査し、以前の最先端の軌道マッチング手法が、凝縮されたグラフを最適化する際に、元のグラフから偏った制限された監視信号を提供することを明らかにしました。
これにより、凝縮されたグラフの規模と有効性の両方が大幅に制限されます。
この論文では、これまで無視されてきた監視信号をブリッジすることによって \textit{無損失グラフ圧縮} に向けた最初の試みを行います。
具体的には、カリキュラム学習戦略を採用して、元のグラフからのより多様な監視信号を使用してエキスパートの軌跡をトレーニングし、拡張ウィンドウマッチングを使用してその情報を凝縮されたグラフに効果的に転送します。
さらに、専門家の軌跡から知識をさらに抽出するために損失関数を設計します。
理論的分析によって私たちの手法の設計が正当化され、広範な実験によってさまざまなデータセットにわたるその優位性が検証されました。
コードは https://github.com/NUS-HPC-AI-Lab/GEOM で公開されています。
要約(オリジナル)
Graph condensation aims to reduce the size of a large-scale graph dataset by synthesizing a compact counterpart without sacrificing the performance of Graph Neural Networks (GNNs) trained on it, which has shed light on reducing the computational cost for training GNNs. Nevertheless, existing methods often fall short of accurately replicating the original graph for certain datasets, thereby failing to achieve the objective of lossless condensation. To understand this phenomenon, we investigate the potential reasons and reveal that the previous state-of-the-art trajectory matching method provides biased and restricted supervision signals from the original graph when optimizing the condensed one. This significantly limits both the scale and efficacy of the condensed graph. In this paper, we make the first attempt toward \textit{lossless graph condensation} by bridging the previously neglected supervision signals. Specifically, we employ a curriculum learning strategy to train expert trajectories with more diverse supervision signals from the original graph, and then effectively transfer the information into the condensed graph with expanding window matching. Moreover, we design a loss function to further extract knowledge from the expert trajectories. Theoretical analysis justifies the design of our method and extensive experiments verify its superiority across different datasets. Code is released at https://github.com/NUS-HPC-AI-Lab/GEOM.
arxiv情報
著者 | Yuchen Zhang,Tianle Zhang,Kai Wang,Ziyao Guo,Yuxuan Liang,Xavier Bresson,Wei Jin,Yang You |
発行日 | 2024-02-07 16:32:02+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google