ParlayANN: Scalable and Deterministic Parallel Graph-Based Approximate Nearest Neighbor Search Algorithms

要約

近似最近傍検索 (ANNS) アルゴリズムは、データの高次元ベクトル空間表現 (つまり、埋め込み) に対する効率的な類似性検索を可能にするため、最新の深層学習スタックの重要な部分です。
さまざまな ANNS アルゴリズムの中でも、グラフベースのアルゴリズムがスループットとリコールの最適なトレードオフを実現することが知られています。
最新の ANNS データセットは大規模であるにもかかわらず、既存の並列グラフ ベースの実装は、ロックの多用やその他の逐次的なボトルネックにより、大規模なデータセットに拡張する際に大きな課題を抱えています。そのため、1) 多数のプロセッサに効率的に拡張することができません。
2) 特定のアプリケーションでは望ましくない非決定性が生じます。
このペーパーでは、決定論的かつ並列グラフベースの近似最近傍検索アルゴリズムのライブラリである ParlayANN と、そのようなアルゴリズムを開発するための便利なツールのセットを紹介します。
このライブラリでは、10 億規模のデータセットに拡張できる 4 つの最先端のグラフベースの ANNS アルゴリズムの新しい並列実装を開発します。
当社のアルゴリズムは決定論的であり、さまざまな困難なデータセットにわたって高いスケーラビリティを実現します。
新しいアルゴリズムのアイデアに加えて、新しいアルゴリズムと 2 つの既存の非グラフ アプローチの詳細な実験研究も実施します。
私たちの実験結果は、新しい技術の有効性を検証するとともに、興味深い発見のリストを含む大規模なデータセットにおける ANNS アルゴリズム間の包括的な比較につながります。

要約(オリジナル)

Approximate nearest-neighbor search (ANNS) algorithms are a key part of the modern deep learning stack due to enabling efficient similarity search over high-dimensional vector space representations (i.e., embeddings) of data. Among various ANNS algorithms, graph-based algorithms are known to achieve the best throughput-recall tradeoffs. Despite the large scale of modern ANNS datasets, existing parallel graph based implementations suffer from significant challenges to scale to large datasets due to heavy use of locks and other sequential bottlenecks, which 1) prevents them from efficiently scaling to a large number of processors, and 2) results in nondeterminism that is undesirable in certain applications. In this paper, we introduce ParlayANN, a library of deterministic and parallel graph-based approximate nearest neighbor search algorithms, along with a set of useful tools for developing such algorithms. In this library, we develop novel parallel implementations for four state-of-the-art graph-based ANNS algorithms that scale to billion-scale datasets. Our algorithms are deterministic and achieve high scalability across a diverse set of challenging datasets. In addition to the new algorithmic ideas, we also conduct a detailed experimental study of our new algorithms as well as two existing non-graph approaches. Our experimental results both validate the effectiveness of our new techniques, and lead to a comprehensive comparison among ANNS algorithms on large scale datasets with a list of interesting findings.

arxiv情報

著者 Magdalen Dobson Manohar,Zheqi Shen,Guy E. Blelloch,Laxman Dhulipala,Yan Gu,Harsha Vardhan Simhadri,Yihan Sun
発行日 2024-02-08 17:00:13+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.IR, cs.LG パーマリンク