Distributed Silhouette Algorithm: Evaluating Clustering on Big Data


残念ながら、クラスタリングの品質を評価する人気のあるシルエット メトリックには、このプロパティがなく、入力データセットのサイズに関して 2 次の計算複雑性があります。
このため、クラスタリングを別の方法で評価する必要があるビッグ データ シナリオでは、その実行が妨げられてきました。
このギャップを埋めるために、このホワイト ペーパーでは、線形の複雑さでシルエット メトリックを計算し、分散環境で簡単に並列実行できる最初のアルゴリズムを紹介します。
その実装は、Apache Spark ML ライブラリで自由に利用できます。


In the big data era, the key feature that each algorithm needs to have is the possibility of efficiently running in parallel in a distributed environment. The popular Silhouette metric to evaluate the quality of a clustering, unfortunately, does not have this property and has a quadratic computational complexity with respect to the size of the input dataset. For this reason, its execution has been hindered in big data scenarios, where clustering had to be evaluated otherwise. To fill this gap, in this paper we introduce the first algorithm that computes the Silhouette metric with linear complexity and can easily execute in parallel in a distributed environment. Its implementation is freely available in the Apache Spark ML library.


著者 Marco Gaido
発行日 2023-03-24 16:10:43+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.DC, cs.DS パーマリンク