GiGaMAE: Generalizable Graph Masked Autoencoder via Collaborative Latent Space Reconstruction

要約

マスクされたオートエンコーダを使用した自己教師あり学習は、効果的な画像またはテキスト表現を生成できるため、再トレーニングせずにさまざまな下流タスクに適用できるため、最近人気が高まっています。
ただし、現在のマスクされたオートエンコーダー モデルには、グラフ データに対する優れた一般化能力が欠けていることがわかります。
この問題に取り組むために、私たちは GiGaMAE と呼ばれる新しいグラフ マスク オートエンコーダ フレームワークを提案します。
元のグラフコンポーネント(特徴やエッジなど)を明示的に再構成することによってノードプレゼンテーションを学習する既存のマスクされたオートエンコーダーとは異なり、この論文では、有益で統合された潜在的な埋め込みを協力して再構成することを提案します。
グラフ トポロジと属性情報を含む埋め込みを再構成のターゲットとして考慮することで、モデルはより一般化された包括的な知識を取得できるようになります。
さらに、複数のターゲットの効果的な再構築を可能にする相互情報量ベースの再構築損失を導入します。
この学習目標により、単一のターゲットから学習した独占的な知識と、複数のターゲットによって共有される共通の知識とを区別することができます。
7 つのデータセットをベンチマークとして使用し、3 つの下流タスクでメソッドを評価します。
広範な実験により、最先端のベースラインに対する GiGaMAE の優位性が実証されています。
私たちの結果が、グラフ構造データの基礎モデルの設計に光を当てることを願っています。
私たちのコードは https://github.com/sycny/GiGaMAE で入手できます。

要約(オリジナル)

Self-supervised learning with masked autoencoders has recently gained popularity for its ability to produce effective image or textual representations, which can be applied to various downstream tasks without retraining. However, we observe that the current masked autoencoder models lack good generalization ability on graph data. To tackle this issue, we propose a novel graph masked autoencoder framework called GiGaMAE. Different from existing masked autoencoders that learn node presentations by explicitly reconstructing the original graph components (e.g., features or edges), in this paper, we propose to collaboratively reconstruct informative and integrated latent embeddings. By considering embeddings encompassing graph topology and attribute information as reconstruction targets, our model could capture more generalized and comprehensive knowledge. Furthermore, we introduce a mutual information based reconstruction loss that enables the effective reconstruction of multiple targets. This learning objective allows us to differentiate between the exclusive knowledge learned from a single target and common knowledge shared by multiple targets. We evaluate our method on three downstream tasks with seven datasets as benchmarks. Extensive experiments demonstrate the superiority of GiGaMAE against state-of-the-art baselines. We hope our results will shed light on the design of foundation models on graph-structured data. Our code is available at: https://github.com/sycny/GiGaMAE.

arxiv情報

著者 Yucheng Shi,Yushun Dong,Qiaoyu Tan,Jundong Li,Ninghao Liu
発行日 2023-08-18 16:30:51+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG パーマリンク