Faster Maximum Inner Product Search in High Dimensions

要約

最大内積探索 (MIPS) は、レコメンデーション システムなどの機械学習アプリケーションで広く使用されているタスクです。
クエリ ベクトルと $d$ 次元空間の $n$ アトム ベクトルが与えられた場合、MIPS の目標は、クエリ ベクトルとの内積が最大になるアトムを見つけることです。
既存の MIPS アルゴリズムは、少なくとも $O(\sqrt{d})$ としてスケーリングされます。
この作業では、複雑さが $d$ に依存しない新しいランダム化 MIPS アルゴリズムである BanditMIPS を紹介します。
BanditMIPS は、座標をサブサンプリングすることによって各原子の内積を推定し、より有望な原子についてより多くの座標を適応的に評価します。
特定の適応サンプリング戦略は、多腕の盗賊によって動機付けられています。
$d$ の複雑さを $O(\sqrt{d})$ から $O(1)$ に改善しながら、BanditMIPS が高い確率で正しい答えを返すことを理論的に保証します。
また、4 つの合成データセットと実世界のデータセットで実験を行い、BanditMIPS が以前の最先端のアルゴリズムよりも優れていることを示しています。
たとえば、ムービー レンズ データセット ($n$=4,000、$d$=6,000) では、BanditMIPS は次善のアルゴリズムよりも 20$\times$ 高速ですが、同じ答えを返します。
BanditMIPS はデータの前処理を必要とせず、専門家が精度と実行時間をトレードオフするために使用できるハイパーパラメーターを含みます。
また、BanditMIPS-$\alpha$ という名前のアルゴリズムの変形を提案します。これは、座標全体で不均一なサンプリングを使用することにより、さらなる高速化を実現します。
最後に、既知の前処理手法を使用して BanditMIPS をさらに高速化する方法を示し、Matching Pursuit およびフーリエ解析への応用について説明します。

要約(オリジナル)

Maximum Inner Product Search (MIPS) is a ubiquitous task in machine learning applications such as recommendation systems. Given a query vector and $n$ atom vectors in $d$-dimensional space, the goal of MIPS is to find the atom that has the highest inner product with the query vector. Existing MIPS algorithms scale at least as $O(\sqrt{d})$, which becomes computationally prohibitive in high-dimensional settings. In this work, we present BanditMIPS, a novel randomized MIPS algorithm whose complexity is independent of $d$. BanditMIPS estimates the inner product for each atom by subsampling coordinates and adaptively evaluates more coordinates for more promising atoms. The specific adaptive sampling strategy is motivated by multi-armed bandits. We provide theoretical guarantees that BanditMIPS returns the correct answer with high probability, while improving the complexity in $d$ from $O(\sqrt{d})$ to $O(1)$. We also perform experiments on four synthetic and real-world datasets and demonstrate that BanditMIPS outperforms prior state-of-the-art algorithms. For example, in the Movie Lens dataset ($n$=4,000, $d$=6,000), BanditMIPS is 20$\times$ faster than the next best algorithm while returning the same answer. BanditMIPS requires no preprocessing of the data and includes a hyperparameter that practitioners may use to trade off accuracy and runtime. We also propose a variant of our algorithm, named BanditMIPS-$\alpha$, which achieves further speedups by employing non-uniform sampling across coordinates. Finally, we demonstrate how known preprocessing techniques can be used to further accelerate BanditMIPS, and discuss applications to Matching Pursuit and Fourier analysis.

arxiv情報

著者 Mo Tiwari,Ryan Kang,Je-Yong Lee,Luke Lee,Chris Piech,Sebastian Thrun,Ilan Shomorony,Martin Jinye Zhang
発行日 2023-02-15 02:03:55+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG パーマリンク