Rethinking Deep Clustering Paradigms: Self-Supervision Is All You Need

要約

深いクラスタリングの最近の進歩は、自己教師と疑似監督の学習の大幅な進歩によって可能になりました。
ただし、セルフスーパービジョンと擬似監督のトレードオフは、3つの主要な問題を引き起こす可能性があります。
共同トレーニングにより、特徴のランダム性と特徴ドリフトが発生しますが、独立したトレーニングにより、特徴のランダム性と機能のねじれが発生します。
本質的に、擬似ラベルを使用すると、ランダムで信頼できない機能が生成されます。
擬似監視と自己監督の組み合わせは、信頼できるクラスタリング指向の機能をドリフトします。
さらに、セルフスーパービジョンから擬似監督への移動は、湾曲した潜在マニホールドをひねる可能性があります。
このペーパーでは、機能のランダム性、特徴ドリフト、機能のひねりに関する既存のディープクラスタリングパラダイムの制限について説明します。
擬似監督を2回目のセルフスーパービジョントレーニングに置き換える新しい戦略を備えた新しいパラダイムを提案します。
新しい戦略により、インスタンスレベルのセルフスーパービジョンと近隣レベルのセルフスーパービジョンとの間の移行がスムーズで、それほど突然ではありません。
さらに、インスタンスレベルのセルフスーパービジョンとクラスタリングレベルの擬似スーパービジョンとの間の強力な競争によって引き起こされる漂流効果を防ぎます。
さらに、擬似スーパービジョンがないことは、ランダムな特徴を生成するリスクを防ぎます。
この新しいアプローチにより、私たちの論文は、R-DCで示される深いクラスタリングパラダイムの再考を紹介します。
私たちのモデルは、深いクラスタリングで遭遇する3つの主要な課題に対処するように特別に設計されています:特徴のランダム性、機能ドリフト、機能のねじれ。
6つのデータセットで実施された実験結果は、2レベルのセルフスーパービジョントレーニングが大幅な改善をもたらすことを示しています。

要約(オリジナル)

The recent advances in deep clustering have been made possible by significant progress in self-supervised and pseudo-supervised learning. However, the trade-off between self-supervision and pseudo-supervision can give rise to three primary issues. The joint training causes Feature Randomness and Feature Drift, whereas the independent training causes Feature Randomness and Feature Twist. In essence, using pseudo-labels generates random and unreliable features. The combination of pseudo-supervision and self-supervision drifts the reliable clustering-oriented features. Moreover, moving from self-supervision to pseudo-supervision can twist the curved latent manifolds. This paper addresses the limitations of existing deep clustering paradigms concerning Feature Randomness, Feature Drift, and Feature Twist. We propose a new paradigm with a new strategy that replaces pseudo-supervision with a second round of self-supervision training. The new strategy makes the transition between instance-level self-supervision and neighborhood-level self-supervision smoother and less abrupt. Moreover, it prevents the drifting effect that is caused by the strong competition between instance-level self-supervision and clustering-level pseudo-supervision. Moreover, the absence of the pseudo-supervision prevents the risk of generating random features. With this novel approach, our paper introduces a Rethinking of the Deep Clustering Paradigms, denoted by R-DC. Our model is specifically designed to address three primary challenges encountered in Deep Clustering: Feature Randomness, Feature Drift, and Feature Twist. Experimental results conducted on six datasets have shown that the two-level self-supervision training yields substantial improvements.

arxiv情報

著者 Amal Shaheena,Nairouz Mrabahb,Riadh Ksantinia,Abdulla Alqaddoumia
発行日 2025-03-05 18:44:35+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV パーマリンク