Wide Gaps and Clustering Axioms

要約

広く適用されている K 平均法アルゴリズムは、高い/低い類似性/密度に関して私たちの期待に反するクラスタリングを生成し、これらの期待を自然な方法で形式化する距離ベースのクラスタリング アルゴリズムに関するクラインバーグの公理システムと矛盾します。
K 平均法は、特に一貫性の公理に違反します。
この衝突は、アルゴリズムのクラスタリング裾野がクラスタリング公理系に適合すると期待するためには、データ自体がクラスタリング可能な特性を持っていなければならないという説明されていない期待によるものであると仮説を立てます。
これを実証するために、変分 k 分離可能性と残差 k 分離可能性という 2 つの新しいクラスター可能性の特性を導入し、ユークリッド空間または非ユークリッド空間で動作する k 平均法に対してクラインバーグの整合性公理が成り立つことを示します。
さらに、k 平均法には当てはまらないクラインバーグのリッチネス公理に近似的に適合する k 平均法アルゴリズムの拡張を提案します。
このようにして、ユークリッドおよび非ユークリッドの設定において、k 平均法とクラインバーグの公理的枠組みを調和させます。
クラスタリングの公理的フレームワークの理論およびクラスタ可能性理論への貢献に加えて、実際的な貢献は、k 平均コスト関数を最適化するアルゴリズムのテスト目的でデータセットを構築できることです。
これには、事前に知られている全体的な最適値を使用したクラスター化可能なデータの構築方法が含まれます。

要約(オリジナル)

The widely applied k-means algorithm produces clusterings that violate our expectations with respect to high/low similarity/density and is in conflict with Kleinberg’s axiomatic system for distance based clustering algorithms that formalizes those expectations in a natural way. k-means violates in particular the consistency axiom. We hypothesise that this clash is due to the not explicated expectation that the data themselves should have the property of being clusterable in order to expect the algorithm clustering hem to fit a clustering axiomatic system. To demonstrate this, we introduce two new clusterability properties, variational k-separability and residual k-separability and show that then the Kleinberg’s consistency axiom holds for k-means operating in the Euclidean or non-Euclidean space. Furthermore, we propose extensions of k-means algorithm that fit approximately the Kleinberg’s richness axiom that does not hold for k-means. In this way, we reconcile k-means with Kleinberg’s axiomatic framework in Euclidean and non-Euclidean settings. Besides contribution to the theory of axiomatic frameworks of clustering and for clusterability theory, practical contribution is the possibility to construct {datasets for testing purposes of algorithms optimizing k-means cost function. This includes a method of construction of {clusterable data with known in advance global optimum.

arxiv情報

著者 Mieczysław A. Kłopotek
発行日 2023-08-07 10:43:48+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG パーマリンク