Breaking the Reclustering Barrier in Centroid-based Deep Clustering

要約

この研究では、セントロイド ベースのディープ クラスタリング (DC) アルゴリズムにおける重要な現象を調査します。つまり、パフォーマンスは初期の急速な向上期間の後にすぐに飽和します。
専門家は通常、定期的な再クラスタリングによって早期の飽和に対処しますが、これではパフォーマンスの停滞に対処するには不十分であることが実証されています。
私たちはこの現象を「再クラスタリング バリア」と呼び、再クラスタリング バリアがいつ発生するか、その根底にあるメカニズムは何か、アルゴリズム BRB でどのように再クラスタリング バリアを突破できるかを経験的に示します。
BRB は、初期クラスタリングへの早期の過剰なコミットを回避し、概念的に単純なままで、再初期化されたクラスタリング ターゲットへの継続的な適応を可能にします。
私たちのアルゴリズムを広く使用されている重心ベースの DC アルゴリズムに適用すると、(1) BRB は広範囲のクラスタリング ベンチマークにわたって一貫してパフォーマンスを向上させ、(2) BRB はゼロからのトレーニングを可能にし、(3) BRB は状態に対して競合的に実行することを示します。
コントラスト損失と組み合わせた最先端の DC アルゴリズム。
コードと事前トレーニングされたモデルは https://github.com/Probabilistic-and-Interactive-ML/breaking-the-reclustering-barrier でリリースされています。

要約(オリジナル)

This work investigates an important phenomenon in centroid-based deep clustering (DC) algorithms: Performance quickly saturates after a period of rapid early gains. Practitioners commonly address early saturation with periodic reclustering, which we demonstrate to be insufficient to address performance plateaus. We call this phenomenon the ‘reclustering barrier’ and empirically show when the reclustering barrier occurs, what its underlying mechanisms are, and how it is possible to Break the Reclustering Barrier with our algorithm BRB. BRB avoids early over-commitment to initial clusterings and enables continuous adaptation to reinitialized clustering targets while remaining conceptually simple. Applying our algorithm to widely-used centroid-based DC algorithms, we show that (1) BRB consistently improves performance across a wide range of clustering benchmarks, (2) BRB enables training from scratch, and (3) BRB performs competitively against state-of-the-art DC algorithms when combined with a contrastive loss. We release our code and pre-trained models at https://github.com/Probabilistic-and-Interactive-ML/breaking-the-reclustering-barrier .

arxiv情報

著者 Lukas Miklautz,Timo Klein,Kevin Sidak,Collin Leiber,Thomas Lang,Andrii Shkabrii,Sebastian Tschiatschek,Claudia Plant
発行日 2024-11-04 17:05:37+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG パーマリンク