PECANN: Parallel Efficient Clustering with Graph-Based Approximate Nearest Neighbor Search

要約

この論文では、点セットの密度に基づくクラスタリングについて研究します。
これらの方法では、点の密集領域を使用して、任意の形状のクラスターを検出します。
特に、実際にうまく機能することがわかっている一般的なタイプのアルゴリズムである密度ピーク クラスタリングの変形を研究します。
私たちの目標は、実際に普及している大規模な高次元データセットをクラスター化することです。
従来のソリューションはシーケンシャルで大規模なデータに拡張できないか、低次元データに特化していました。
このペーパーでは、このクラスのアルゴリズムに共通するいくつかの重要なステップを抽象化することにより、密度ピーク クラスタリングのさまざまなバリエーションを単一のフレームワーク PECANN に統合します。
そのような重要なステップの 1 つは、述語関数を満たす最近傍を見つけることです。この論文の主な貢献の 1 つは、グラフベースの近似最近傍検索 (ANNS) を使用してこの述語検索を実行する効率的な方法です。
十分な並列性を提供するために、点が述語を満たす近似最近傍点を少ないラウンド数で見つけられるようにする二重探索手法を提案します。
私たちの技術は多くの既存のグラフベースの ANNS アルゴリズムに適用でき、それらはすべて PECANN にプラグインできます。
PECANN を使用して 5 つのクラスタリング アルゴリズムを実装し、双方向ハイパー スレッディングを備えた 30 コア マシン上で最大 128 万点、最大 1024 次元の合成データセットと現実世界のデータセットで評価します。
逐次的な高次元密度ピーク クラスタリング用の最先端の FASTDP アルゴリズムと比較して、当社の最良のアルゴリズムは 45 倍から 734 倍高速でありながら、競争力のある ARI スコアを達成します。
低次元向けに最適化された最先端の並列 DPC ベースのアルゴリズムと比較して、PECANN が 2 桁高速であることを示します。
私たちが知る限り、私たちの研究は、大規模な高次元の実世界の画像およびテキスト埋め込みデータセットで DPC バリアントを評価した最初の研究です。

要約(オリジナル)

This paper studies density-based clustering of point sets. These methods use dense regions of points to detect clusters of arbitrary shapes. In particular, we study variants of density peaks clustering, a popular type of algorithm that has been shown to work well in practice. Our goal is to cluster large high-dimensional datasets, which are prevalent in practice. Prior solutions are either sequential, and cannot scale to large data, or are specialized for low-dimensional data. This paper unifies the different variants of density peaks clustering into a single framework, PECANN, by abstracting out several key steps common to this class of algorithms. One such key step is to find nearest neighbors that satisfy a predicate function, and one of the main contributions of this paper is an efficient way to do this predicate search using graph-based approximate nearest neighbor search (ANNS). To provide ample parallelism, we propose a doubling search technique that enables points to find an approximate nearest neighbor satisfying the predicate in a small number of rounds. Our technique can be applied to many existing graph-based ANNS algorithms, which can all be plugged into PECANN. We implement five clustering algorithms with PECANN and evaluate them on synthetic and real-world datasets with up to 1.28 million points and up to 1024 dimensions on a 30-core machine with two-way hyper-threading. Compared to the state-of-the-art FASTDP algorithm for high-dimensional density peaks clustering, which is sequential, our best algorithm is 45x-734x faster while achieving competitive ARI scores. Compared to the state-of-the-art parallel DPC-based algorithm, which is optimized for low dimensions, we show that PECANN is two orders of magnitude faster. As far as we know, our work is the first to evaluate DPC variants on large high-dimensional real-world image and text embedding datasets.

arxiv情報

著者 Shangdi Yu,Joshua Engels,Yihao Huang,Julian Shun
発行日 2023-12-13 13:40:48+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.DC, cs.DS, cs.LG パーマリンク