要約
グラフ対比学習 (GCL) は最近大幅な進歩を遂げました。
既存の GCL アプローチは、ノード/グラフ表現を学習するために、同じグラフの 2 つの異なる「ビュー」を比較します。
これらの研究の根底にある仮定は、グラフ拡張戦略は、グラフ ビューが構造的には異なるが、意味的には元のグラフと類似しているような、いくつかの異なるグラフ ビューを生成できるため、元のグラフと拡張されたグラフのグラウンド トゥルース ラベルが生成できるということです。
対照学習ではノードは同一であると見なすことができます。
ただし、この仮定が常に成り立つわけではないことがわかります。
たとえば、ソーシャル ネットワーク内のスーパーノードの削除は、他のノードのコミュニティの分割に大きな影響を与える可能性があります。
同様に、分子グラフ内のノードまたはエッジに摂動があると、グラフのラベルが変更されます。
したがって、コントラスト損失に使用されるラベルの適応を伴うグラフの拡張により、エンコーダーがより良い表現を学習しやすくなると考えられます。
この考えに基づいて、私たちは ID-MixGCL を提案します。これにより、入力ノードと対応する識別ラベルを同時に補間して、制御可能な変化度でソフト信頼サンプルを取得でき、自己教師ありからのきめの細かい表現のキャプチャにつながります。
ラベルのないグラフでのトレーニング。
実験結果は、Cora、IMDB-B、IMDB-M、PROTEINS データセットが最先端の技術と比較して 3 倍大幅に向上したことからわかるように、ID-MixGCL がグラフ分類タスクとノード分類タスクのパフォーマンスを向上させることを示しています。
-29% 絶対ポイント。
要約(オリジナル)
Graph contrastive learning (GCL) has recently achieved substantial advancements. Existing GCL approaches compare two different “views” of the same graph in order to learn node/graph representations. The underlying assumption of these studies is that the graph augmentation strategy is capable of generating several different graph views such that the graph views are structurally different but semantically similar to the original graphs, and thus the ground-truth labels of the original and augmented graph/nodes can be regarded identical in contrastive learning. However, we observe that this assumption does not always hold. For instance, the deletion of a super-node within a social network can exert a substantial influence on the partitioning of communities for other nodes. Similarly, any perturbation to nodes or edges in a molecular graph will change the labels of the graph. Therefore, we believe that augmenting the graph, accompanied by an adaptation of the labels used for the contrastive loss, will facilitate the encoder to learn a better representation. Based on this idea, we propose ID-MixGCL, which allows the simultaneous interpolation of input nodes and corresponding identity labels to obtain soft-confidence samples, with a controllable degree of change, leading to the capture of fine-grained representations from self-supervised training on unlabeled graphs. Experimental results demonstrate that ID-MixGCL improves performance on graph classification and node classification tasks, as demonstrated by significant improvements on the Cora, IMDB-B, IMDB-M, and PROTEINS datasets compared to state-of-the-art techniques, by 3-29% absolute points.
arxiv情報
著者 | Gehang Zhang,Bowen Yu,Jiangxia Cao,Xinghua Zhang,Jiawei Sheng,Chuan Zhou,Tingwen Liu |
発行日 | 2024-01-17 16:28:51+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google