要約
特定のデータセット内のクラスラベルが意味のあるクラスターに対応するかどうかは、実際のデータセットを使用してクラスタリングアルゴリズムの評価に重要です。
このプロパティは、分離性測定によって定量化できます。
密度ベースのクラスタリングの分離性の中心的な側面は、クラスの分離とクラス内のつながりの間であり、分類ベースの複雑さ測定もクラスター妥当性インデックス(CVI)も適切に組み込まれていません。
新しく開発された測定(密度クラスター分離性インデックス、DCSI)は、これら2つの特性を定量化することを目的としており、CVIとしても使用できます。
合成データに関する広範な実験は、DCSIが調整されたRANDインデックス(ARI)を介して測定されたDBSCANのパフォーマンスと強く相関していることを示していますが、密度ベースのハードクラスタリングに適していない重複するクラスを備えたマルチクラスのデータセットに関しては堅牢性がありません。
頻繁に使用される現実世界のデータセットに関する詳細な評価は、DCSIが意味のある密度ベースのクラスターに対応しないタッチまたはオーバーラップのクラスを正しく識別できることを示しています。
要約(オリジナル)
Whether class labels in a given data set correspond to meaningful clusters is crucial for the evaluation of clustering algorithms using real-world data sets. This property can be quantified by separability measures. The central aspects of separability for density-based clustering are between-class separation and within-class connectedness, and neither classification-based complexity measures nor cluster validity indices (CVIs) adequately incorporate them. A newly developed measure (density cluster separability index, DCSI) aims to quantify these two characteristics and can also be used as a CVI. Extensive experiments on synthetic data indicate that DCSI correlates strongly with the performance of DBSCAN measured via the adjusted Rand index (ARI) but lacks robustness when it comes to multi-class data sets with overlapping classes that are ill-suited for density-based hard clustering. Detailed evaluation on frequently used real-world data sets shows that DCSI can correctly identify touching or overlapping classes that do not correspond to meaningful density-based clusters.
arxiv情報
著者 | Jana Gauss,Fabian Scheipl,Moritz Herrmann |
発行日 | 2025-04-10 13:55:36+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google