GraphViz2Vec: A Structure-aware Feature Generation Model to Improve Classification in GNNs

要約

GNN は、ノード分類やリンク予測などのさまざまなタスクを解決するために広く使用されています。
ほとんどの GNN アーキテクチャは、初期埋め込みがランダムであるか、一般的なディストリビューションから生成されることを前提としています。
これらの初期埋め込みでは、意味のある潜在表現に収束するために複数の層の変換が必要です。
層の数により、ノードのより大きな近傍を蓄積できるようになりますが、過度の平滑化の問題も発生します。
さらに、GNN は構造情報を表現するのが苦手です。
たとえば、ノードの出力埋め込みでは、その三角形の参加がキャプチャされません。
この論文では、ノードのローカル近傍の構造情報を取得して GNN モデルの意味のある初期埋め込みを作成できる、新しい特徴抽出方法 GraphViz2Vec を紹介しました。
これらの初期埋め込みは、既存のモデルがさまざまな分類タスクで最先端の結果を達成するのに役立ちます。
さらに、これらの初期埋め込みは、モデルが 2 つのレイヤーだけで望ましい結果を生成するのに役立ち、結果として過度の平滑化の問題が軽減されます。
ノードの初期エンコードは、そのローカル近傍の複数のエネルギー図でトレーニングされた画像分類モデルから取得されます。
これらのエネルギー図は、複数のランダム ウォークによって横断されたノードの誘導サブグラフを使用して生成されます。
生成されたエンコーディングにより、分類タスクにおける既存のモデルのパフォーマンスが向上し (ノード分類タスクとリンク分類タスクでそれぞれ $4.65\%$ と $2.58\%$ の平均増加)、一部のモデルでは最先端の結果が得られます。

要約(オリジナル)

GNNs are widely used to solve various tasks including node classification and link prediction. Most of the GNN architectures assume the initial embedding to be random or generated from popular distributions. These initial embeddings require multiple layers of transformation to converge into a meaningful latent representation. While number of layers allow accumulation of larger neighbourhood of a node it also introduce the problem of over-smoothing. In addition, GNNs are inept at representing structural information. For example, the output embedding of a node does not capture its triangles participation. In this paper, we presented a novel feature extraction methodology GraphViz2Vec that can capture the structural information of a node’s local neighbourhood to create meaningful initial embeddings for a GNN model. These initial embeddings helps existing models achieve state-of-the-art results in various classification tasks. Further, these initial embeddings help the model to produce desired results with only two layers which in turn reduce the problem of over-smoothing. The initial encoding of a node is obtained from an image classification model trained on multiple energy diagrams of its local neighbourhood. These energy diagrams are generated with the induced sub-graph of the nodes traversed by multiple random walks. The generated encodings increase the performance of existing models on classification tasks (with a mean increase of $4.65\%$ and $2.58\%$ for the node and link classification tasks, respectively), with some models achieving state-of-the-art results.

arxiv情報

著者 Shraban Kumar Chatterjee,Suman Kundu
発行日 2024-01-30 17:11:04+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, cs.SI パーマリンク