PANDORA: A Parallel Dendrogram Construction Algorithm for Single Linkage Clustering on GPU

要約

この論文では、\hdbscan を含む単一連鎖階層クラスタリング用の樹状図を効率的に構築するための新しい並列アルゴリズムである \pandora を紹介します。
凝集法や分割法など、最小スパニング ツリー (MST) からの従来の樹状図構築方法は、特に実世界のデータによく見られる歪んだ樹状図の場合、効率的に並列化できないことがよくあります。
\pandora は、独自の再帰的ツリー縮小手法を通じてこれらの課題に対処します。この手法では、最初の樹状図構築のツリーを簡素化し、その後完全な樹状図を段階的に再構築します。
このプロセスにより、樹状図の歪度に関係なく、\pandora が漸近的に動作最適化されます。
\pandora のすべてのステップは完全に並列であり、GPU などの大規模スレッド アクセラレータに適しています。
私たちの実装は Kokkos で書かれており、CPU とマルチベンダー GPU (Nvidia、AMD など) の両方をサポートします。
\pandora のマルチスレッド バージョンは、現在の最高のマルチスレッド実装より 2.2$\times$ 高速ですが、GPU \pandora 実装は、\amdgpu で 6 ~ 20$\times$、\nvidiagpu で 10 ~ 37$\times$ の速度を達成しました。
-マルチスレッドの \pandora を介して。
これらの進歩により、GPU での \hdbscan の速度が現在の最高速度と比較して最大 6 倍向上します。これにより、MST 構築が GPU にオフロードされ、マルチスレッド樹状図構築のみが実行されます。

要約(オリジナル)

This paper presents \pandora, a novel parallel algorithm for efficiently constructing dendrograms for single-linkage hierarchical clustering, including \hdbscan. Traditional dendrogram construction methods from a minimum spanning tree (MST), such as agglomerative or divisive techniques, often fail to efficiently parallelize, especially with skewed dendrograms common in real-world data. \pandora addresses these challenges through a unique recursive tree contraction method, which simplifies the tree for initial dendrogram construction and then progressively reconstructs the complete dendrogram. This process makes \pandora asymptotically work-optimal, independent of dendrogram skewness. All steps in \pandora are fully parallel and suitable for massively threaded accelerators such as GPUs. Our implementation is written in Kokkos, providing support for both CPUs and multi-vendor GPUs (e.g., Nvidia, AMD). The multithreaded version of \pandora is 2.2$\times$ faster than the current best-multithreaded implementation, while the GPU \pandora implementation achieved 6-20$\times$ on \amdgpu and 10-37$\times$ on \nvidiagpu speed-up over multithreaded \pandora. These advancements lead to up to a 6-fold speedup for \hdbscan on GPUs over the current best, which only offload MST construction to GPUs and perform multithreaded dendrogram construction.

arxiv情報

著者 Piyush Sao,Andrey Prokopenko,Damien Lebrun-Grandié
発行日 2024-01-11 18:08:56+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.DC, cs.LG, I.2.5; F.2.0; E.1 パーマリンク