Approximate Nearest Neighbor Search with Window Filters

要約

$\textit{c-estimated window search}$: 近似最近傍検索の問題を定義して調査します。データセット内の各点には数値ラベルがあり、目的は、任意のラベル範囲内でクエリの最近傍を見つけることです。
タイムスタンプ フィルターを使用した画像やドキュメントの検索、コスト フィルターを使用した製品検索など、多くのセマンティック検索の問題は、この問題の自然な例です。
従来の c 近似最近傍問題を解決するインデックスをウィンドウ検索を解決するデータ構造に変換するためのモジュラー ツリー ベースのフレームワークを提案し、理論的に分析します。
ランダムなラベル値、敵対的に構築された埋め込み、リアルタイム タイムスタンプを備えた画像検索埋め込みを備えた標準最近傍ベンチマーク データセットでは、同じ再現レベルで既存のソリューションと比べて最大 75 倍の高速化が得られます。

要約(オリジナル)

We define and investigate the problem of $\textit{c-approximate window search}$: approximate nearest neighbor search where each point in the dataset has a numeric label, and the goal is to find nearest neighbors to queries within arbitrary label ranges. Many semantic search problems, such as image and document search with timestamp filters, or product search with cost filters, are natural examples of this problem. We propose and theoretically analyze a modular tree-based framework for transforming an index that solves the traditional c-approximate nearest neighbor problem into a data structure that solves window search. On standard nearest neighbor benchmark datasets equipped with random label values, adversarially constructed embeddings, and image search embeddings with real timestamps, we obtain up to a $75\times$ speedup over existing solutions at the same level of recall.

arxiv情報

著者 Joshua Engels,Benjamin Landrum,Shangdi Yu,Laxman Dhulipala,Julian Shun
発行日 2024-06-04 15:38:08+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.DS, cs.IR, cs.LG パーマリンク