要約
薄くなる目標は、小さなポイントの小さなセットを使用してデータセットを要約することです。
驚くべきことに、カーネルの半分や圧縮などのガウス薄薄化アルゴリズムは、均一なサブサンプリングの品質と一致し、要約ポイントの数を大幅に減らします。
ただし、既存の保証は、制限された分布範囲とカーネルベースの品質測定のみをカバーし、悲観的な次元依存性に苦しんでいます。
これらの欠陥に対処するために、カーネルまたはデータマトリックスがほぼ低ランクである場合はいつでも高品質の圧縮を保証する、分布およびカーネルに適用されるサブガウス薄化の新しい低ランク分析を導入します。
技術の幅広い適用性を実証するために、トランスの注意を近似し、並べ替えによる確率勾配トレーニングを加速するための最もよく知られている保証を改善する実用的なサブガウス薄化アプローチを設計し、直線的な時間における分布を区別します。
要約(オリジナル)
The goal in thinning is to summarize a dataset using a small set of representative points. Remarkably, sub-Gaussian thinning algorithms like Kernel Halving and Compress can match the quality of uniform subsampling while substantially reducing the number of summary points. However, existing guarantees cover only a restricted range of distributions and kernel-based quality measures and suffer from pessimistic dimension dependence. To address these deficiencies, we introduce a new low-rank analysis of sub-Gaussian thinning that applies to any distribution and any kernel, guaranteeing high-quality compression whenever the kernel or data matrix is approximately low-rank. To demonstrate the broad applicability of the techniques, we design practical sub-Gaussian thinning approaches that improve upon the best known guarantees for approximating attention in transformers, accelerating stochastic gradient training through reordering, and distinguishing distributions in near-linear time.
arxiv情報
著者 | Annabelle Michael Carrell,Albert Gong,Abhishek Shetty,Raaz Dwivedi,Lester Mackey |
発行日 | 2025-02-17 17:30:14+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google