Deep Image Clustering with Contrastive Learning and Multi-scale Graph Convolutional Networks

要約

ディープ クラスタリングは、ディープ ニューラル ネットワークを介した共同表現学習とクラスタリングにおいて有望な機能を示しています。
大幅な進歩にもかかわらず、既存のディープ クラスタリングの作業は主に分布ベースのクラスタリング損失を利用しており、表現学習とマルチスケール構造学習を統合する機能が不足しています。
これに対処するために、この論文では、コントラスト学習とマルチスケール グラフ畳み込みネットワーク (IcicleGCN) を使用した画像クラスタリングと呼ばれる新しいディープ クラスタリング アプローチを紹介します。これは、畳み込みニューラル ネットワーク (CNN) とグラフ畳み込みネットワーク (GCN) の間のギャップを埋めるだけでなく、
ディープクラスタリングタスクにおける対照学習とマルチスケール構造学習の間のギャップ。
私たちのフレームワークは、CNN ベースのバックボーン、インスタンス類似性モジュール (ISM)、結合クラスター構造学習およびインスタンス再構築モジュール (JC-SLIM)、およびマルチスケール GCN モジュール (M-GCN) の 4 つの主要モジュールで構成されています。
)。
具体的には、2 つの重み共有ビューを備えたバックボーン ネットワークを利用して、(各画像から) 2 つの拡張サンプルの表現を学習します。
学習された表現は、それぞれインスタンス レベルとクラスター レベルの共同対照学習のために ISM と JC-SLIM に供給されます。その間、JC-SLIM の自動エンコーダーも M-GCN モジュールへのブリッジとして機能するように事前トレーニングされます。

さらに、マルチスケール近傍構造学習を強制するために、GCN の 2 つのストリームと自動エンコーダーが、(i) 表現融合による層ごとの相互作用と (ii) 共同自己適応学習を介して同時にトレーニングされます。
複数の画像データセットの実験により、IcicleGCN のクラスタリング パフォーマンスが最先端のものよりも優れていることが実証されました。
コードは https://github.com/xuyuankun631/IcicleGCN で入手できます。

要約(オリジナル)

Deep clustering has shown its promising capability in joint representation learning and clustering via deep neural networks. Despite the significant progress, the existing deep clustering works mostly utilize some distribution-based clustering loss, lacking the ability to unify representation learning and multi-scale structure learning. To address this, this paper presents a new deep clustering approach termed image clustering with contrastive learning and multi-scale graph convolutional networks (IcicleGCN), which bridges the gap between convolutional neural network (CNN) and graph convolutional network (GCN) as well as the gap between contrastive learning and multi-scale structure learning for the deep clustering task. Our framework consists of four main modules, namely, the CNN-based backbone, the Instance Similarity Module (ISM), the Joint Cluster Structure Learning and Instance reconstruction Module (JC-SLIM), and the Multi-scale GCN module (M-GCN). Specifically, the backbone network with two weight-sharing views is utilized to learn the representations for the two augmented samples (from each image). The learned representations are then fed to ISM and JC-SLIM for joint instance-level and cluster-level contrastive learning, respectively, during which an auto-encoder in JC-SLIM is also pretrained to serve as a bridge to the M-GCN module. Further, to enforce multi-scale neighborhood structure learning, two streams of GCNs and the auto-encoder are simultaneously trained via (i) the layer-wise interaction with representation fusion and (ii) the joint self-adaptive learning. Experiments on multiple image datasets demonstrate the superior clustering performance of IcicleGCN over the state-of-the-art. The code is available at https://github.com/xuyuankun631/IcicleGCN.

arxiv情報

著者 Yuankun Xu,Dong Huang,Chang-Dong Wang,Jian-Huang Lai
発行日 2023-10-17 14:52:13+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク