Optimal Matrix Sketching over Sliding Windows

要約

行列スケッチ。長さ $N$ のベクトル ストリームで構成される行列 $\boldsymbol{A} \in \mathbb{R}^{N\times d}$ をより小さいスケッチ行列 $\boldsymbol{B} \ で近似することを目的としています。
in \mathbb{R}^{\ell\times d}, \ell \ll N$ は、大規模データ分析や機械学習などの分野でますます注目を集めています。
よく知られた決定論的行列スケッチ法は、頻度方向アルゴリズムです。これは、最適な $O\left(\frac{d}{\varepsilon}\right)$ 空間境界を達成し、$\varepsilon = \ の共分散誤差保証を提供します。
lVert \boldsymbol{A}^\top \boldsymbol{A} – \boldsymbol{B}^\top \boldsymbol{B} \rVert_2/\lVert \boldsymbol{A} \rVert_F^2$。
行列のスケッチ問題は、スライディング ウィンドウのコンテキストで特に興味深いものになります。目標は、最新の $N$ 時間単位にわたる入力ベクトルによって形成される行列 $\boldsymbol{A}_W$ を近似することです。
しかし、最近の取り組みにもかかわらず、スライディング ウィンドウで最適な $O\left(\frac{d}{\varepsilon}\right)$ スペース制限を達成することが可能かどうかは未解決の問題のままです。
この論文では、行正規化されたシーケンスベースのスライディング ウィンドウ上で行列スケッチに最適な $O\left(\frac{d}{\varepsilon}\right)$ 空間境界を実現する DS-FD アルゴリズムを紹介します。
また、時間ベースの正規化されていないスライディング ウィンドウの空間の上限と下限のマッチングも示し、さまざまなスライディング ウィンドウ モデルにわたる \dsfd の一般性と最適性を示します。
これにより、スライディング ウィンドウ上のマトリックス スケッチに最適なスペース制限に関する未解決の質問に最終的に答えられます。
さらに、私たちは合成データセットと現実世界のデータセットの両方を使用して広範な実験を実施し、理論上の主張を検証し、アルゴリズムの正確さと有効性を理論的にも経験的にも確認しています。

要約(オリジナル)

Matrix sketching, aimed at approximating a matrix $\boldsymbol{A} \in \mathbb{R}^{N\times d}$ consisting of vector streams of length $N$ with a smaller sketching matrix $\boldsymbol{B} \in \mathbb{R}^{\ell\times d}, \ell \ll N$, has garnered increasing attention in fields such as large-scale data analytics and machine learning. A well-known deterministic matrix sketching method is the Frequent Directions algorithm, which achieves the optimal $O\left(\frac{d}{\varepsilon}\right)$ space bound and provides a covariance error guarantee of $\varepsilon = \lVert \boldsymbol{A}^\top \boldsymbol{A} – \boldsymbol{B}^\top \boldsymbol{B} \rVert_2/\lVert \boldsymbol{A} \rVert_F^2$. The matrix sketching problem becomes particularly interesting in the context of sliding windows, where the goal is to approximate the matrix $\boldsymbol{A}_W$, formed by input vectors over the most recent $N$ time units. However, despite recent efforts, whether achieving the optimal $O\left(\frac{d}{\varepsilon}\right)$ space bound on sliding windows is possible has remained an open question. In this paper, we introduce the DS-FD algorithm, which achieves the optimal $O\left(\frac{d}{\varepsilon}\right)$ space bound for matrix sketching over row-normalized, sequence-based sliding windows. We also present matching upper and lower space bounds for time-based and unnormalized sliding windows, demonstrating the generality and optimality of \dsfd across various sliding window models. This conclusively answers the open question regarding the optimal space bound for matrix sketching over sliding windows. Furthermore, we conduct extensive experiments with both synthetic and real-world datasets, validating our theoretical claims and thus confirming the correctness and effectiveness of our algorithm, both theoretically and empirically.

arxiv情報

著者 Hanyan Yin,Dongxie Wen,Jiajun Li,Zhewei Wei,Xiao Zhang,Zengfeng Huang,Feifei Li
発行日 2024-05-13 14:38:35+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.DB, cs.DS, cs.LG パーマリンク