Medoid Silhouette clustering with automatic cluster number selection

要約

クラスタリング結果の評価は難しく、評価されるデータセットと見る人の視点に大きく依存します。
クラスタリング結果を検証するための一般的な尺度を提供しようとする、さまざまなクラスタリング品質尺度が存在します。
非常に人気のある尺度はシルエットです。
Silhouette の効率的な medoid ベースのバリアントについて説明し、その特性の理論的分析を実行し、直接最適化のための 2 つの高速バージョンを提供し、最適なクラスター数を選択するための使用法について説明します。
オリジナルの Silhouette のアイデアと、よく知られた PAM アルゴリズムおよびその最新の改良版 FasterPAM を組み合わせています。
バージョンの 1 つは、元のバリアントと同等の結果を保証し、$O(k^2)$ の実行速度の向上を実現します。
30000 サンプルおよび $k$=100 の実データの実験では、元の PAMMEDSIL アルゴリズムと比較して 10464$\times$ の高速化が観察されました。
さらに、最適なクラスター数を直接選択するためのバリアントも提供しています。

要約(オリジナル)

The evaluation of clustering results is difficult, highly dependent on the evaluated data set and the perspective of the beholder. There are many different clustering quality measures, which try to provide a general measure to validate clustering results. A very popular measure is the Silhouette. We discuss the efficient medoid-based variant of the Silhouette, perform a theoretical analysis of its properties, provide two fast versions for the direct optimization, and discuss the use to choose the optimal number of clusters. We combine ideas from the original Silhouette with the well-known PAM algorithm and its latest improvements FasterPAM. One of the versions guarantees equal results to the original variant and provides a run speedup of $O(k^2)$. In experiments on real data with 30000 samples and $k$=100, we observed a 10464$\times$ speedup compared to the original PAMMEDSIL algorithm. Additionally, we provide a variant to choose the optimal number of clusters directly.

arxiv情報

著者 Lars Lenssen,Erich Schubert
発行日 2023-09-07 14:46:48+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, stat.ML パーマリンク