LGBQPC: Local Granular-Ball Quality Peaks Clustering

要約

密度ピーククラスタリング(DPC)アルゴリズムは、単純で効果的な仮定に基づいて、任意に形作られたクラスターを検出する能力にかなりの注目を集めています。
DPCとGranular-Ball(GB)コンピューティングを統合する最近の進歩により、GBベースのDPC(GBDPC)アルゴリズムが発生し、計算効率が向上しました。
ただし、GBDPCは、複雑なクラスタリングタスク、特に複雑なマニホールド構造または不均一密度分布を持つデータを含むタスクを処理する際の制限を示します。
これらの課題を克服するために、このペーパーでは、正当な粒度(POJG)の原理に基づいてGB生成とクラスタリングプロセスの両方でGBDPCの包括的な改善を提供するローカルGB品質のピーククラスタリング(LGBQPC)アルゴリズムを提案します。
第一に、GB-POJG+と呼ばれる改善されたGB生成法が開発され、4つの重要な側面で元のGB-POJGを体系的に改良します:目的関数、GB分裂の終了基準、異常なGBの定義、および粒度性レベル適応戦略。
GB-POJG+は、単一のペナルティ係数のみを必要とすることでパラメーター構成を簡素化し、許容範囲内で生成されたGBの数を維持しながら高品質のGB生成を保証します。
クラスタリングフェーズでは、GB k-nearest neightグラフに基づいて2つの重要な革新が導入されます。密度推定の相対GB品質と、GB距離メトリックの測地線距離です。
これらの変更は、複雑なマニホールド構造または非均一密度分布を備えたデータセット上のGBDPCのパフォーマンスを大幅に改善します。
合成データセットと公開データセットの両方を含む40のベンチマークデータセットでの広範な数値実験により、提案されたLGBQPCアルゴリズムの優れたパフォーマンスが検証されます。

要約(オリジナル)

The density peaks clustering (DPC) algorithm has attracted considerable attention for its ability to detect arbitrarily shaped clusters based on a simple yet effective assumption. Recent advancements integrating granular-ball (GB) computing with DPC have led to the GB-based DPC (GBDPC) algorithm, which improves computational efficiency. However, GBDPC demonstrates limitations when handling complex clustering tasks, particularly those involving data with complex manifold structures or non-uniform density distributions. To overcome these challenges, this paper proposes the local GB quality peaks clustering (LGBQPC) algorithm, which offers comprehensive improvements to GBDPC in both GB generation and clustering processes based on the principle of justifiable granularity (POJG). Firstly, an improved GB generation method, termed GB-POJG+, is developed, which systematically refines the original GB-POJG in four key aspects: the objective function, termination criterion for GB division, definition of abnormal GB, and granularity level adaptation strategy. GB-POJG+ simplifies parameter configuration by requiring only a single penalty coefficient and ensures high-quality GB generation while maintaining the number of generated GBs within an acceptable range. In the clustering phase, two key innovations are introduced based on the GB k-nearest neighbor graph: relative GB quality for density estimation and geodesic distance for GB distance metric. These modifications substantially improve the performance of GBDPC on datasets with complex manifold structures or non-uniform density distributions. Extensive numerical experiments on 40 benchmark datasets, including both synthetic and publicly available datasets, validate the superior performance of the proposed LGBQPC algorithm.

arxiv情報

著者 Zihang Jia,Zhen Zhang,Witold Pedrycz
発行日 2025-05-16 15:26:02+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG パーマリンク