Matrix Product Sketching via Coordinated Sampling

要約

マトリックス製品に近似するという適切な問題を再検討します、$ \ mathbf {a}^t \ mathbf {b} $、小さなスペーススケッチ$ \ mathcal {s}(\ mathbf {a})$ and $ \
mathcal {s}(\ mathbf {b})$ of $ \ mathbf {a} \ in \ r^{n \ times d} $および$ \ mathbf {b} \ in \ r^{n \ times m} $ $

共有ランダムシードの使用を除き、スケッチを互いに独立して計算する必要がある設定に興味があります。
$ \ mathbf {a} $および$ \ mathbf {b} $がまばらである場合、\ emphingに基づいた方法{調整されたランダムサンプリング}がジョンソンリンデンストラウスの投影やcountsketchなどの古典的な線形スケッチアプローチを上回ることができることを証明します。
たとえば、Frobenius Normエラー$ \ epsilon \ | \ mathbf {a} \ | _f \ | \ mathbf {b} \ | _f $を取得するには、調整されたサンプリングにはサイズ$ o(s/\ epsilon^2)$のスケッチが必要です
$ \ mathbf {a} $ and $ \ mathbf {b} $が最大$ s \ leq d、m $ nonzeros son now 1を持っている場合。
対照的に、線形スケッチは、サイズ$ o(d/\ epsilon^2)$および$ o(m/\ epsilon^2)$ \ mathbf {a} $および$ \ mathbf {b} $のスケッチにつながります。
2つのアプリケーションでアプローチを経験的に評価します。1)データベースの分散線形回帰、データセットの発見や増強などのタスクによって動機付けられた問題、2)トランスベースの言語モデルの注意マトリックスの近似。
どちらの場合も、サンプリングアルゴリズムは、線形スケッチよりも数桁改善されます。

要約(オリジナル)

We revisit the well-studied problem of approximating a matrix product, $\mathbf{A}^T\mathbf{B}$, based on small space sketches $\mathcal{S}(\mathbf{A})$ and $\mathcal{S}(\mathbf{B})$ of $\mathbf{A} \in \R^{n \times d}$ and $\mathbf{B}\in \R^{n \times m}$. We are interested in the setting where the sketches must be computed independently of each other, except for the use of a shared random seed. We prove that, when $\mathbf{A}$ and $\mathbf{B}$ are sparse, methods based on \emph{coordinated random sampling} can outperform classical linear sketching approaches, like Johnson-Lindenstrauss Projection or CountSketch. For example, to obtain Frobenius norm error $\epsilon\|\mathbf{A}\|_F\|\mathbf{B}\|_F$, coordinated sampling requires sketches of size $O(s/\epsilon^2)$ when $\mathbf{A}$ and $\mathbf{B}$ have at most $s \leq d,m$ non-zeros per row. In contrast, linear sketching leads to sketches of size $O(d/\epsilon^2)$ and $O(m/\epsilon^2)$ for $\mathbf{A}$ and $\mathbf{B}$. We empirically evaluate our approach on two applications: 1) distributed linear regression in databases, a problem motivated by tasks like dataset discovery and augmentation, and 2) approximating attention matrices in transformer-based language models. In both cases, our sampling algorithms yield an order of magnitude improvement over linear sketching.

arxiv情報

著者 Majid Daliri,Juliana Freire,Danrong Li,Christopher Musco
発行日 2025-01-29 18:35:38+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.DB, cs.DS, cs.LG パーマリンク