OPORP: One Permutation + One Random Projection

要約

2 つの $D$ 次元のデータ ベクトル (埋め込みなど)、$u、v$ を考えてみましょう。
ベクトルがトレーニング済みモデルから生成される多くの埋め込みベースの検索 (EBR) アプリケーションでは、$D=256\sim 1024$ が一般的です。
この論文では、OPORP (1 つの順列 + 1 つのランダム投影) は、データの削減/圧縮を実現するために「カウント スケッチ」タイプのデータ構造の変形を使用します。
OPORP では、まずデータ ベクトルに順列を適用します。
ランダム ベクトル $r$ が i.i.d で生成されます。
モーメント付き: $E(r_i) = 0、E(r_i^2)=1、E(r_i^3) =0、E(r_i^4)=s$。
$r$ と並べ替えられたすべてのデータ ベクトルを (ドット積として) 乗算します。
次に、$D$ 列を同じ長さの $k$ ビンに分割し、各ビンの値を集約 (つまり、合計) して、各データ ベクトルから $k$ サンプルを取得します。
重要なステップの 1 つは、$k$ サンプルを単位 $l_2$ ノルムに正規化することです。
推定分散は本質的に次のとおりであることがわかります: $(s-1)A + \frac{D-k}{D-1}\frac{1}{k}\left[ (1-\rho^2)^2 -2A
\right]$、ここで $A\geq 0$ はデータ ($u,v$) の関数です。
この式は、いくつかの重要な特性を明らかにします: (1) $s=1$ が必要です。
(2) 係数 $\frac{D-k}{D-1}$ は、分散を減らすのに非常に有益です。
(3) $\frac{1}{k}(1-\rho^2)^2$ 項は $\frac{1}{k}(1+\rho^2)$ と比較して大幅な改善です。
これは非正規化推定量に相当します。
OPORP の $k$ を $k=1$ とし、この手順を $m$ 回繰り返すことで、「非常にスパーなランダム投影」(VSRP) の仕事を正確に回復できることを示します。
これにより、VSRP の正規化された推定量が直ちに得られ、VSRP の元の推定量が大幅に改善されます。
要約すると、OPORP では、(i) 正規化と (ii) 固定長のビニング スキームという 2 つの重要なステップにより、現代の埋め込みにおける日常的な (そして重要な) タスクであるコサイン類似度の推定精度が大幅に向上しました。
ベースの検索 (EBR) アプリケーション。

要約(オリジナル)

Consider two $D$-dimensional data vectors (e.g., embeddings): $u, v$. In many embedding-based retrieval (EBR) applications where the vectors are generated from trained models, $D=256\sim 1024$ are common. In this paper, OPORP (one permutation + one random projection) uses a variant of the “count-sketch” type of data structures for achieving data reduction/compression. With OPORP, we first apply a permutation on the data vectors. A random vector $r$ is generated i.i.d. with moments: $E(r_i) = 0, E(r_i^2)=1, E(r_i^3) =0, E(r_i^4)=s$. We multiply (as dot product) $r$ with all permuted data vectors. Then we break the $D$ columns into $k$ equal-length bins and aggregate (i.e., sum) the values in each bin to obtain $k$ samples from each data vector. One crucial step is to normalize the $k$ samples to the unit $l_2$ norm. We show that the estimation variance is essentially: $(s-1)A + \frac{D-k}{D-1}\frac{1}{k}\left[ (1-\rho^2)^2 -2A\right]$, where $A\geq 0$ is a function of the data ($u,v$). This formula reveals several key properties: (1) We need $s=1$. (2) The factor $\frac{D-k}{D-1}$ can be highly beneficial in reducing variances. (3) The term $\frac{1}{k}(1-\rho^2)^2$ is a substantial improvement compared with $\frac{1}{k}(1+\rho^2)$, which corresponds to the un-normalized estimator. We illustrate that by letting the $k$ in OPORP to be $k=1$ and repeat the procedure $m$ times, we exactly recover the work of “very spars random projections” (VSRP). This immediately leads to a normalized estimator for VSRP which substantially improves the original estimator of VSRP. In summary, with OPORP, the two key steps: (i) the normalization and (ii) the fixed-length binning scheme, have considerably improved the accuracy in estimating the cosine similarity, which is a routine (and crucial) task in modern embedding-based retrieval (EBR) applications.

arxiv情報

著者 Ping Li,Xiaoyun Li
発行日 2023-05-23 15:03:53+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, stat.ML パーマリンク