Propagate & Distill: Towards Effective Graph Learners Using Propagation-Embracing MLPs

要約

最近の研究では、教師グラフ ニューラル ネットワーク (GNN) からの知識蒸留によって学生 MLP をトレーニングすることにより、多層パーセプトロン (MLP) を利用してグラフ上の半教師ありノード分類を解決することが試みられました。
これまでの研究は主に、蒸留中に教師モデルと生徒モデル間の出力確率分布を一致させることによってスチューデント MLP をトレーニングすることに焦点を当てていましたが、明示的かつ解釈可能な方法で構造情報を注入する方法については系統的に研究されていませんでした。
特徴変換 $T$ と伝播 $\Pi$ を分離する GNN に触発されて、学生 MLP に $T$ と $\Pi$ の両方を学習させるように蒸留プロセスを再構築しました。
これは、教師からの蒸留の前に逆伝播 $\Pi^{-1}$ を適用することで実現できますが、それでもトレーニング中の大規模な行列の乗算による高い計算コストが伴います。
この問題を解決するために、教師の出力を蒸留する前に伝播する Propagate & Distill (P&D) を提案します。これは、逆伝播の近似プロセスとして解釈できます。
私たちは、P&D が学生 MLP のパフォーマンスを容易に向上させることができることを実証します。

要約(オリジナル)

Recent studies attempted to utilize multilayer perceptrons (MLPs) to solve semisupervised node classification on graphs, by training a student MLP by knowledge distillation from a teacher graph neural network (GNN). While previous studies have focused mostly on training the student MLP by matching the output probability distributions between the teacher and student models during distillation, it has not been systematically studied how to inject the structural information in an explicit and interpretable manner. Inspired by GNNs that separate feature transformation $T$ and propagation $\Pi$, we re-frame the distillation process as making the student MLP learn both $T$ and $\Pi$. Although this can be achieved by applying the inverse propagation $\Pi^{-1}$ before distillation from the teacher, it still comes with a high computational cost from large matrix multiplications during training. To solve this problem, we propose Propagate & Distill (P&D), which propagates the output of the teacher before distillation, which can be interpreted as an approximate process of the inverse propagation. We demonstrate that P&D can readily improve the performance of the student MLP.

arxiv情報

著者 Yong-Min Shin,Won-Yong Shin
発行日 2023-11-29 16:26:24+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.IT, cs.LG, cs.NE, cs.SI, math.IT パーマリンク