Guaranteed Recovery of Unambiguous Clusters

要約

クラスタリングは、「正しい」クラスタリングがどうあるべきかという本質的なあいまいさのため、多くの場合、困難な問題となります。
クラスター $K$ の数がわかっている場合でも、特に異なるクラスター間で密度にばらつきがあり、クラスターに比較的分離された高密度領域が複数ある場合には、この曖昧さが依然として存在することがよくあります。
この論文では、$K$ クラスタリングがあいまいな場合の情報理論的特徴付けを提案し、明確な場合には常にクラスタリングを回復するアルゴリズムを設計します。
この特徴付けは、クラスター内の 2 つの高密度領域が十分に分離可能であり、クラスター化において真に異なる 2 つのクラスターよりも 2 つの異なるクラスターのように見える場合の状況を形式化します。
このアルゴリズムは、まず密度ベースのアプローチを使用して $K$ 部分クラスター (または「シード」) を識別し、次に、クラスター化されていないポイントを最初の $K$ 部分クラスターに貪欲な方法で追加して、完全なクラスター化を形成します。
重複するクラスターを効果的に処理するように修正されたバージョンのアルゴリズムを実装およびテストし、非凸クラスターの回復に広く使用されているアルゴリズムと比較して、パラメーターの選択がほとんど必要なく、多くのデータセットでパフォーマンスが向上していることを観察しました。

要約(オリジナル)

Clustering is often a challenging problem because of the inherent ambiguity in what the ‘correct’ clustering should be. Even when the number of clusters $K$ is known, this ambiguity often still exists, particularly when there is variation in density among different clusters, and clusters have multiple relatively separated regions of high density. In this paper we propose an information-theoretic characterization of when a $K$-clustering is ambiguous, and design an algorithm that recovers the clustering whenever it is unambiguous. This characterization formalizes the situation when two high density regions within a cluster are separable enough that they look more like two distinct clusters than two truly distinct clusters in the clustering. The algorithm first identifies $K$ partial clusters (or ‘seeds’) using a density-based approach, and then adds unclustered points to the initial $K$ partial clusters in a greedy manner to form a complete clustering. We implement and test a version of the algorithm that is modified to effectively handle overlapping clusters, and observe that it requires little parameter selection and displays improved performance on many datasets compared to widely used algorithms for non-convex cluster recovery.

arxiv情報

著者 Kayvon Mazooji,Ilan Shomorony
発行日 2025-01-22 18:51:25+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.DS, cs.IT, cs.LG, math.IT, math.ST, stat.TH パーマリンク