High-Performance Hybrid Algorithm for Minimum Sum-of-Squares Clustering of Infinitely Tall Data

要約

この論文では、クラスタリング問題の新しい定式化、すなわち無限大データの最小二乗和クラスタリング (MSSC-ITD) を紹介し、その効果的な解決策のための革新的なハイブリッド並列アプローチのセットである HPClust を紹介します。
HPClust は、最新のハイパフォーマンス コンピューティング技術を利用することで、有効性、計算効率、スケーラビリティなどの主要なクラスタリング メトリクスを強化します。
MapReduce フレームワークを通じて処理時間を短縮するだけのバニラ データ並列処理とは対照的に、私たちのアプローチは、複数の戦略による競争と協力の並列処理と目的関数ランドスの複雑な特性を活用することで、優れたパフォーマンスを実現します。
スケーリングに苦労する他の利用可能なアルゴリズムとは異なり、私たちのアルゴリズムは本質的に並列性があり、スケーラビリティと並列性の向上によってソリューションの品質を向上させ、中小規模のデータセット向けに設計された高度なアルゴリズムさえも上回るパフォーマンスを発揮します。
4 つの並列戦略を特徴とする HPClust の評価では、主要な指標でより優れたパフォーマンスを提供することで、従来の手法や最先端の​​手法よりも優れていることが実証されました。
これらの結果は、並列処理によりクラスタリングの効率だけでなく精度も向上することも示しています。
さらに、計算効率とクラスタリングの品質の間のバランスを調査し、データセットの仕様とリソースの可用性に基づいた最適な並列戦略への洞察を提供します。
この研究により、クラスタリング アルゴリズムにおける並列処理の理解が深まり、高度な並列アプローチの賢明なハイブリッド化が MSSC-ITD にとって最適な結果を生み出すことが実証されました。
合成データの実験により、HPClust の優れたスケーラビリティとノイズに対する堅牢性がさらに確認されました。

要約(オリジナル)

This paper introduces a novel formulation of the clustering problem, namely the Minimum Sum-of-Squares Clustering of Infinitely Tall Data (MSSC-ITD), and presents HPClust, an innovative set of hybrid parallel approaches for its effective solution. By utilizing modern high-performance computing techniques, HPClust enhances key clustering metrics: effectiveness, computational efficiency, and scalability. In contrast to vanilla data parallelism, which only accelerates processing time through the MapReduce framework, our approach unlocks superior performance by leveraging the multi-strategy competitive-cooperative parallelism and intricate properties of the objective function landscape. Unlike other available algorithms that struggle to scale, our algorithm is inherently parallel in nature, improving solution quality through increased scalability and parallelism, and outperforming even advanced algorithms designed for small and medium-sized datasets. Our evaluation of HPClust, featuring four parallel strategies, demonstrates its superiority over traditional and cutting-edge methods by offering better performance in the key metrics. These results also show that parallel processing not only enhances the clustering efficiency, but the accuracy as well. Additionally, we explore the balance between computational efficiency and clustering quality, providing insights into optimal parallel strategies based on dataset specifics and resource availability. This research advances our understanding of parallelism in clustering algorithms, demonstrating that a judicious hybridization of advanced parallel approaches yields optimal results for MSSC-ITD. Experiments on synthetic data further confirm HPClust’s exceptional scalability and robustness to noise.

arxiv情報

著者 Ravil Mussabayev,Rustam Mussabayev
発行日 2024-06-18 16:19:56+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.DC, cs.LG, math.OC パーマリンク