AugDMC: Data Augmentation Guided Deep Multiple Clustering

要約

クラスタリングは、類似したオブジェクトをグループ化し、異なるオブジェクトを分離することを目的としています。
その後、データに隠された構造を特定して、教師なしの方法でデータを理解するのに役立ちます。
K 平均法などの従来のクラスタリング手法では、1 つのデータ セットに対して 1 つのクラスタリングしか提供されません。
オートエンコーダベースのクラスタリング手法などのディープクラスタリング手法は、より優れたパフォーマンスを示していますが、依然として単一のクラスタリングを提供します。
ただし、特定のデータセットには複数のクラスタリング構造があり、それぞれがデータの独自の視点を表す場合があります。
したがって、データに隠された複数の独立した構造を発見するために、いくつかの多重クラスタリング手法が開発されています。
ディープマルチクラスタリング手法はパフォーマンスを向上させますが、データ内の別の視点を効率的に取得する方法は依然として問題です。
この論文では、この課題に取り組むために、新しいデータ拡張ガイドによる深層多重クラスタリング手法である AugDMC を提案します。
具体的には、AugDMC はデータ拡張を活用し、自己教師ありプロトタイプベースの表現学習を使用してデータの特定の側面に関連する特徴を自動的に抽出します。この場合、データのさまざまな側面をさまざまなデータ拡張の下で保存できます。
さらに、さまざまな拡張による不安定な問題を軽減するために、安定した最適化戦略が提案されています。
その後、データのさまざまな側面に基づいて複数のクラスタリングを取得できます。
3 つの現実世界のデータセットに関する実験結果を最先端の方法と比較し、提案された方法の有効性を検証します。

要約(オリジナル)

Clustering aims to group similar objects together while separating dissimilar ones apart. Thereafter, structures hidden in data can be identified to help understand data in an unsupervised manner. Traditional clustering methods such as k-means provide only a single clustering for one data set. Deep clustering methods such as auto-encoder based clustering methods have shown a better performance, but still provide a single clustering. However, a given dataset might have multiple clustering structures and each represents a unique perspective of the data. Therefore, some multiple clustering methods have been developed to discover multiple independent structures hidden in data. Although deep multiple clustering methods provide better performance, how to efficiently capture the alternative perspectives in data is still a problem. In this paper, we propose AugDMC, a novel data Augmentation guided Deep Multiple Clustering method, to tackle the challenge. Specifically, AugDMC leverages data augmentations to automatically extract features related to a certain aspect of the data using a self-supervised prototype-based representation learning, where different aspects of the data can be preserved under different data augmentations. Moreover, a stable optimization strategy is proposed to alleviate the unstable problem from different augmentations. Thereafter, multiple clusterings based on different aspects of the data can be obtained. Experimental results on three real-world datasets compared with state-of-the-art methods validate the effectiveness of the proposed method.

arxiv情報

著者 Jiawei Yao,Enbei Liu,Maham Rashid,Juhua Hu
発行日 2023-06-22 16:31:46+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク