Comparative Analysis of Optimization Strategies for K-means Clustering in Big Data Contexts: A Review

要約

このペーパーでは、ビッグ データのコンテキストにおける K 平均法アルゴリズムのさまざまな最適化手法の比較分析を示します。
K 平均法は広く使用されているクラスタリング アルゴリズムですが、大規模なデータセットを扱う場合にはスケーラビリティの問題が発生する可能性があります。
この論文では、並列化、近似、サンプリング方法など、これらの問題を克服するためのさまざまなアプローチを検討します。
著者らは、多数のベンチマーク データセットに対するさまざまなクラスタリング手法のパフォーマンスを評価し、「Less is more」アプローチ (LIMA) によって提供される優勢基準に従って比較します。つまり、速度、クラスタリング品質、およびクラスタリング品質の次元に沿って同時に比較します。
シンプルさ。
この結果は、さまざまな種類のデータセットにはさまざまな手法がより適していることを示しており、ビッグ データの K 平均法クラスタリングにおける速度と精度の間のトレードオフについての洞察が得られます。
全体として、この論文は、ビッグ データ アプリケーション向けに K 平均法を最適化する方法について、実務者と研究者に包括的なガイドを提供します。

要約(オリジナル)

This paper presents a comparative analysis of different optimization techniques for the K-means algorithm in the context of big data. K-means is a widely used clustering algorithm, but it can suffer from scalability issues when dealing with large datasets. The paper explores different approaches to overcome these issues, including parallelization, approximation, and sampling methods. The authors evaluate the performance of various clustering techniques on a large number of benchmark datasets, comparing them according to the dominance criterion provided by the ‘less is more’ approach (LIMA), i.e., simultaneously along the dimensions of speed, clustering quality, and simplicity. The results show that different techniques are more suitable for different types of datasets and provide insights into the trade-offs between speed and accuracy in K-means clustering for big data. Overall, the paper offers a comprehensive guide for practitioners and researchers on how to optimize K-means for big data applications.

arxiv情報

著者 Ravil Mussabayev,Rustam Mussabayev
発行日 2024-05-20 09:20:45+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, math.OC パーマリンク