要約
最近傍検索に対するグラフベースのアプローチは、実際に大規模なデータセットを処理するための一般的で強力なツールですが、理論上の保証は限られています。
HNSW、NSG、DiskANN など、最近のグラフベースの近似最近傍検索アルゴリズムの最悪の場合のパフォーマンスを調査します。
DiskANN の場合、その「低速前処理」バージョンが、境界のある「固有」次元を持つデータ セットに対して、一定の近似比と多対数クエリ時間による近似最近傍検索クエリをサポートしていることが証明されています。
「高速前処理」を備えた DiskANN、HNSW、NSG など、調査した他のデータ構造バリアントについては、「妥当な」精度を達成するために必要な経験的なクエリ時間がインスタンス サイズにおいて線形であるインスタンス ファミリを提示します。
たとえば、DiskANN の場合、クエリ プロシージャは、クエリの $5$ の最近傍に遭遇する前に、サイズ $n$ のインスタンスに対して少なくとも $0.1 n$ ステップを実行できることを示します。
要約(オリジナル)
Graph-based approaches to nearest neighbor search are popular and powerful tools for handling large datasets in practice, but they have limited theoretical guarantees. We study the worst-case performance of recent graph-based approximate nearest neighbor search algorithms, such as HNSW, NSG and DiskANN. For DiskANN, we show that its ‘slow preprocessing’ version provably supports approximate nearest neighbor search query with constant approximation ratio and poly-logarithmic query time, on data sets with bounded ‘intrinsic’ dimension. For the other data structure variants studied, including DiskANN with ‘fast preprocessing’, HNSW and NSG, we present a family of instances on which the empirical query time required to achieve a ‘reasonable’ accuracy is linear in instance size. For example, for DiskANN, we show that the query procedure can take at least $0.1 n$ steps on instances of size $n$ before it encounters any of the $5$ nearest neighbors of the query.
arxiv情報
著者 | Piotr Indyk,Haike Xu |
発行日 | 2023-10-29 19:25:48+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google