要約
ディープ グラフ クラスタリングは、ディープ ニューラル ネットワークを使用してグラフのノードを互いに素なクラスターにグループ化することを目的としており、近年有望な進歩を遂げています。
ただし、既存の方法では、100 万個のノードを含む大規模なグラフに対応できません。
この問題を解決するために、拡張と縮小のアイデアを備えたスケーラブルなディープ グラフ クラスタリング手法 (Dink-Net) が提案されています。
まず、ノードを識別することによって、拡張によって破損しているかどうかに関係なく、表現が自己教師形式で学習されます。
一方、クラスター中心は学習可能な神経パラメーターとして初期化されます。
続いて、提案されたクラスター拡張損失とクラスター縮小損失を敵対的な方法で最小化することにより、クラスタリング分布が最適化されます。
これらの設定により、2 段階のクラスタリング (表現学習とクラスタリングの最適化) をエンドツーエンドのフレームワークに統合し、ネットワークがクラスタリングに適した機能を学習するように導きます。
さらに、Dink-Net は、設計された損失関数がミニバッチ データを採用して、パフォーマンスが低下することなくクラスタリング分布を最適化するため、大きなグラフにも適切に拡張できます。
実験結果と理論解析の両方が、私たちの方法の優位性を示しています。
次点と比較して、Dink-Net は、1 億 1,100 万のノードと 16 億のエッジを備えた ogbn-papers100M データセットで 9.62% の NMI 向上を達成しました。
ソースコードは https://github.com/yueliu1999/Dink-Net で公開されています。
さらに、ディープ グラフ クラスタリングのコレクション (論文、コード、データセット) が https://github.com/yueliu1999/Awesome-Deep-Graph-Clustering で共有されています。
要約(オリジナル)
Deep graph clustering, which aims to group the nodes of a graph into disjoint clusters with deep neural networks, has achieved promising progress in recent years. However, the existing methods fail to scale to the large graph with million nodes. To solve this problem, a scalable deep graph clustering method (Dink-Net) is proposed with the idea of dilation and shrink. Firstly, by discriminating nodes, whether being corrupted by augmentations, representations are learned in a self-supervised manner. Meanwhile, the cluster centres are initialized as learnable neural parameters. Subsequently, the clustering distribution is optimized by minimizing the proposed cluster dilation loss and cluster shrink loss in an adversarial manner. By these settings, we unify the two-step clustering, i.e., representation learning and clustering optimization, into an end-to-end framework, guiding the network to learn clustering-friendly features. Besides, Dink-Net scales well to large graphs since the designed loss functions adopt the mini-batch data to optimize the clustering distribution even without performance drops. Both experimental results and theoretical analyses demonstrate the superiority of our method. Compared to the runner-up, Dink-Net achieves 9.62% NMI improvement on the ogbn-papers100M dataset with 111 million nodes and 1.6 billion edges. The source code is released at https://github.com/yueliu1999/Dink-Net. Besides, a collection (papers, codes, and datasets) of deep graph clustering is shared at https://github.com/yueliu1999/Awesome-Deep-Graph-Clustering.
arxiv情報
著者 | Yue Liu,Ke Liang,Jun Xia,Sihang Zhou,Xihong Yang,Xinwang Liu,Stan Z. Li |
発行日 | 2023-07-14 16:00:24+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google