Bonsai: Gradient-free Graph Distillation for Node Classification

要約

グラフの蒸留は、トレーニングデータセットを圧縮しながら必須グラフ特性を保持していることにより、GNNのスケーラブルなトレーニングを可能にする有望な手段として浮上しています。
私たちの研究は、現在のグラフ蒸留技術の重要な欠点を明らかにしています。
まず、アルゴリズムの大部分は、蒸留を実行するために完全なデータセットでのトレーニングを逆説的に必要とします。
第二に、勾配排出アプローチのため、これらの方法では、ハイパーパラメーターまたはGNNアーキテクチャの変化に新たな蒸留が必要であり、柔軟性と再利用性を制限します。
最後に、完全に接続されたエッジ加重グラフの合成により、大幅なサイズの削減を達成できません。
これらの課題に対処するために、vonsaiは、\ textit {computation trees}がメッセージ通過GNNの基本処理単位を形成するという観察によって力を与えられた新しいグラフ蒸留方法です。
盆栽は、トレーニングセット内のすべての計算ツリーの表現を最大化する\ textit {exemplar}ツリーの慎重な選択をエンコードすることにより、データセットを蒸留します。
このユニークなアプローチは、盆栽を最初の線形タイム、モデルに依存しないグラフ蒸留アルゴリズムとして与えます。これは、平均で22ドルの$ $ $ $ 22 $ $ $ $ 6 $のベースラインよりも既存のベースラインを上回ります。
盆栽は、採用された近似戦略に関する厳格な数学的保証に基づいており、GNNアーキテクチャ、データセット、およびパラメーターに堅牢になります。

要約(オリジナル)

Graph distillation has emerged as a promising avenue to enable scalable training of GNNs by compressing the training dataset while preserving essential graph characteristics. Our study uncovers significant shortcomings in current graph distillation techniques. First, the majority of the algorithms paradoxically require training on the full dataset to perform distillation. Second, due to their gradient-emulating approach, these methods require fresh distillation for any change in hyperparameters or GNN architecture, limiting their flexibility and reusability. Finally, they fail to achieve substantial size reduction due to synthesizing fully-connected, edge-weighted graphs. To address these challenges, we present Bonsai, a novel graph distillation method empowered by the observation that \textit{computation trees} form the fundamental processing units of message-passing GNNs. Bonsai distills datasets by encoding a careful selection of \textit{exemplar} trees that maximize the representation of all computation trees in the training set. This unique approach imparts Bonsai as the first linear-time, model-agnostic graph distillation algorithm for node classification that outperforms existing baselines across $6$ real-world datasets on accuracy, while being $22$ times faster on average. Bonsai is grounded in rigorous mathematical guarantees on the adopted approximation strategies making it robust to GNN architectures, datasets, and parameters.

arxiv情報

著者 Mridul Gupta,Samyak Jain,Vansh Ramani,Hariprasad Kodamana,Sayan Ranu
発行日 2025-03-05 17:09:46+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG パーマリンク