Superior Parallel Big Data Clustering through Competitive Stochastic Sample Size Optimization in Big-means

要約

この論文では、従来の Big-means 手法を進歩させた、新しい K-means クラスタリング アルゴリズムを紹介します。
提案された方法は、並列処理、確率的サンプリング、競合最適化を効率的に統合して、ビッグ データ アプリケーション向けに設計されたスケーラブルなバリアントを作成します。
従来の手法で通常直面するスケーラビリティと計算時間の課題に対処します。
このアルゴリズムは、実行中に各ワーカーのサンプル サイズを動的に調整し、パフォーマンスを最適化します。
これらのサンプル サイズからのデータは継続的に分析され、最も効率的な構成の特定が容易になります。
異なるサンプルサイズを使用するワーカー間の競争要素を組み込むことにより、大手段アルゴリズム内の効率がさらに刺激されます。
基本的に、このアルゴリズムは、並列コンピューティング設定で確率的で競合的なサンプリング戦略を採用することにより、計算時間とクラスタリングの品質のバランスをとります。

要約(オリジナル)

This paper introduces a novel K-means clustering algorithm, an advancement on the conventional Big-means methodology. The proposed method efficiently integrates parallel processing, stochastic sampling, and competitive optimization to create a scalable variant designed for big data applications. It addresses scalability and computation time challenges typically faced with traditional techniques. The algorithm adjusts sample sizes dynamically for each worker during execution, optimizing performance. Data from these sample sizes are continually analyzed, facilitating the identification of the most efficient configuration. By incorporating a competitive element among workers using different sample sizes, efficiency within the Big-means algorithm is further stimulated. In essence, the algorithm balances computational time and clustering quality by employing a stochastic, competitive sampling strategy in a parallel computing setting.

arxiv情報

著者 Rustam Mussabayev,Ravil Mussabayev
発行日 2024-03-27 17:05:03+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.DC, cs.IR, cs.LG パーマリンク