Revisiting Silhouette: From Micro to Macro Aggregation

要約

シルエット係数は、データ ポイントごとのスコアを生成し、クラスタリング割り当ての品質を評価する、確立された内部クラスタリング評価尺度です。
データセット全体のクラスタリングの品質を評価するには、通常、データセット内のすべてのポイントのスコアが単一の値に平均化されます。これはマイクロ平均化と呼ばれる戦略です。
この作業で合成例を使用して説明するように、このマイクロ平均化戦略はクラスターの不均衡と外れ値 (バックグラウンド ノイズ) の両方の影響を受けやすくなります。
これらの問題に対処するために、最初にクラスター レベルでシルエット スコアを平均し、次にクラスター全体のスコアを (マクロ) 平均する、代替の集計戦略を提案します。
同じ合成例に基づいて、提案されたマクロ平均シルエット スコアがクラスターの不均衡とバックグラウンド ノイズに対して堅牢であることを示します。
私たちは、マクロ平均バリアントが、典型的なミクロ平均スコアと比較して、いくつかのケースでクラスターのグラウンド トゥルース数のより良い推定値を提供することを示す実験研究を実施しました。

要約(オリジナル)

Silhouette coefficient is an established internal clustering evaluation measure that produces a score per data point, assessing the quality of its clustering assignment. To assess the quality of the clustering of the whole dataset, the scores of all the points in the dataset are typically averaged into a single value, a strategy which we call as micro-averaging. As we illustrate in this work, by using a synthetic example, this micro-averaging strategy is sensitive both to cluster imbalance and outliers (background noise). To address these issues, we propose an alternative aggregation strategy, which first averages the silhouette scores at a cluster level and then (macro) averages the scores across the clusters. Based on the same synthetic example, we show that the proposed macro-averaged silhouette score is robust to cluster imbalance and background noise. We have conducted an experimental study showing that our macro-averaged variant provides better estimates of the ground truth number of clusters on several cases compared to the typical micro-averaged score.

arxiv情報

著者 Georgios Vardakas,John Pavlopoulos,Aristidis Likas
発行日 2024-01-11 10:57:29+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG パーマリンク