要約
密度ベースのクラスタリングは、低密度領域によって分離されている限り、任意の形状のクラスターを識別できるため、最も人気のあるクラスタリングアルゴリズムです。
ただし、低密度の領域では分離されていない高密度領域は、複数のクラスターに属する異なる構造を持つ場合があります。
私たちが知る限り、以前の密度ベースのクラスタリングアルゴリズムはすべて、そのような構造を検出できません。
この論文では、この問題に対処するための新しい密度ベースのクラスタリングスキームを提供します。
これは、低密度領域で分離されていない高密度領域の綿密な構造を検出できるため、クラスタリングのアプリケーションの範囲を拡張できるのは、最初のクラスタリングアルゴリズムです。
アルゴリズムは、SDC-HSDD-NDSAと呼ばれる正規化された密度と自己適応による階層二次指向の微分により、二次指向の微分、階層、正規化密度、および自己適応係数を採用しています。
合成および実際のデータセットでの実験は、アルゴリズムの有効性、堅牢性、および粒度の独立性を検証するために実装されており、スキームはPythonパッケージSCIKIT-LEARNの監視されていないスキームと比較されます。
結果は、私たちのアルゴリズムが多くの状況で以前のアルゴリズムを上回ること、特にクラスターが通常の内部構造を持っている場合に大幅に優れていることを示しています。
たとえば、ARIおよびNMI基準を使用した構造を持つ8つのノイズレス合成データセットを平均して、以前のアルゴリズムは0.6および0.7未満のスコアを取得しますが、提示されたアルゴリズムはそれぞれ0.9と0.95を超えるスコアを取得します。
要約(オリジナル)
Density-based clustering is the most popular clustering algorithm since it can identify clusters of arbitrary shape as long as they are separated by low-density regions. However, a high-density region that is not separated by low-density ones might also have different structures belonging to multiple clusters. As far as we know, all previous density-based clustering algorithms fail to detect such structures. In this paper, we provide a novel density-based clustering scheme to address this problem. It is the rst clustering algorithm that can detect meticulous structures in a high-density region that is not separated by low-density ones and thus extends the range of applications of clustering. The algorithm employs secondary directed differential, hierarchy, normalized density, as well as the self-adaption coefficient, called Structure Detecting Cluster by Hierarchical Secondary Directed Differential with Normalized Density and Self-Adaption, dubbed SDC-HSDD-NDSA. Experiments on synthetic and real datasets are implemented to verify the effectiveness, robustness, and granularity independence of the algorithm, and the scheme is compared to unsupervised schemes in the Python package Scikit-learn. Results demonstrate that our algorithm outperforms previous ones in many situations, especially significantly when clusters have regular internal structures. For example, averaging over the eight noiseless synthetic datasets with structures employing ARI and NMI criteria, previous algorithms obtain scores below 0.6 and 0.7, while the presented algorithm obtains scores higher than 0.9 and 0.95, respectively.
arxiv情報
著者 | Hao Shu |
発行日 | 2025-02-14 15:34:58+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google