要約
大規模なグラフでのトレーニングは、グラフ表現の学習において顕著な成果を上げていますが、そのコストとストレージに対する懸念が高まっています。
既存のグラフ圧縮手法は主に、圧縮グラフの特徴行列の最適化に焦点を当てており、元のグラフからの構造情報の影響は無視されています。
構造情報の影響を調査するために、スペクトル領域から解析を実施し、以前の研究での大幅なラプラシアン エネルギー分布 (LED) のシフトを経験的に特定しました。
このような変化は、アーキテクチャ間の一般化や、異常検出やリンク予測などの特定のタスクのパフォーマンスの低下につながります。
この論文では、元の構造情報を合成構造の生成にブロードキャストするための新しい構造ブロードキャスティング グラフ データセット蒸留 (SGDD) スキームを提案します。これにより、元の構造情報の見落としが明示的に防止されます。
理論的には、SGDD による合成グラフは、以前の作品よりも LED のシフトが小さく、クロスアーキテクチャ設定と特定のタスクの両方で優れたパフォーマンスをもたらすことが期待されます。
私たちは提案された SGDD を 9 つのデータセットにわたって検証し、すべてのデータセットで最先端の結果を達成しました。たとえば、YelpChi データセットでは、私たちのアプローチは元のグラフ データセットでのトレーニングの 98.6% のテスト精度を維持し、1,000 回の節約を実現しました。
グラフのスケール。
さらに、9 つのデータセットにわたる LED シフトには 17.6% ~ 31.4% の削減が存在すると経験的に評価しています。
広範な実験と分析により、提案された設計の有効性と必要性が検証されます。
コードは GitHub リポジトリ: https://github.com/RingBDStack/SGDD で入手できます。
要約(オリジナル)
Training on large-scale graphs has achieved remarkable results in graph representation learning, but its cost and storage have attracted increasing concerns. Existing graph condensation methods primarily focus on optimizing the feature matrices of condensed graphs while overlooking the impact of the structure information from the original graphs. To investigate the impact of the structure information, we conduct analysis from the spectral domain and empirically identify substantial Laplacian Energy Distribution (LED) shifts in previous works. Such shifts lead to poor performance in cross-architecture generalization and specific tasks, including anomaly detection and link prediction. In this paper, we propose a novel Structure-broadcasting Graph Dataset Distillation (SGDD) scheme for broadcasting the original structure information to the generation of the synthetic one, which explicitly prevents overlooking the original structure information. Theoretically, the synthetic graphs by SGDD are expected to have smaller LED shifts than previous works, leading to superior performance in both cross-architecture settings and specific tasks. We validate the proposed SGDD across 9 datasets and achieve state-of-the-art results on all of them: for example, on the YelpChi dataset, our approach maintains 98.6% test accuracy of training on the original graph dataset with 1,000 times saving on the scale of the graph. Moreover, we empirically evaluate there exist 17.6% ~ 31.4% reductions in LED shift crossing 9 datasets. Extensive experiments and analysis verify the effectiveness and necessity of the proposed designs. The code is available in the GitHub repository: https://github.com/RingBDStack/SGDD.
arxiv情報
著者 | Beining Yang,Kai Wang,Qingyun Sun,Cheng Ji,Xingcheng Fu,Hao Tang,Yang You,Jianxin Li |
発行日 | 2023-10-13 15:36:48+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google