cuSLINK: Single-linkage Agglomerative Clustering on the GPU

要約

この論文では、GPU 上で SLINK アルゴリズムを再定式化した斬新で最先端の cuSLINK を提案します。これは $O(Nk)$ 空間のみを必要とし、パラメータ $k$ を使用して空間と時間をトレードオフします。
また、cuSLINK を構成する新規で再利用可能なビルディング ブロックのセットも提案します。
これらのビルディング ブロックには、$k$-NN グラフ構築、スパニング ツリー、樹状図クラスター抽出のための高度に最適化された計算パターンが含まれています。
プリミティブを使用して GPU 上で cuSLINK をエンドツーエンドで実装し、かつては困難だった広範な現実世界のデータ マイニングおよび機械学習アプリケーションをさらに可能にする方法を示します。
一般的な HDBSCAN アルゴリズムにおける主な計算ボトルネックに加えて、当社のエンドツーエンド cuSLINK アルゴリズムの影響は、ソーシャル ネットワークやコンピューター ネットワークのクラスター分析、自然言語処理、コンピューター ビジョンなど、重要なアプリケーションの広範囲に及びます。
ユーザーは、https://docs.rapids.ai/api/cuml/latest/api/#agglomerative-clustering で cuSLINK を入手できます。

要約(オリジナル)

In this paper, we propose cuSLINK, a novel and state-of-the-art reformulation of the SLINK algorithm on the GPU which requires only $O(Nk)$ space and uses a parameter $k$ to trade off space and time. We also propose a set of novel and reusable building blocks that compose cuSLINK. These building blocks include highly optimized computational patterns for $k$-NN graph construction, spanning trees, and dendrogram cluster extraction. We show how we used our primitives to implement cuSLINK end-to-end on the GPU, further enabling a wide range of real-world data mining and machine learning applications that were once intractable. In addition to being a primary computational bottleneck in the popular HDBSCAN algorithm, the impact of our end-to-end cuSLINK algorithm spans a large range of important applications, including cluster analysis in social and computer networks, natural language processing, and computer vision. Users can obtain cuSLINK at https://docs.rapids.ai/api/cuml/latest/api/#agglomerative-clustering

arxiv情報

著者 Corey J. Nolet,Divye Gala,Alex Fender,Mahesh Doijade,Joe Eaton,Edward Raff,John Zedlewski,Brad Rees,Tim Oates
発行日 2023-06-28 16:34:50+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, stat.ML パーマリンク