Supervised Kernel Thinning

要約

Dwivedi & Mackey (2024) のカーネル間引きアルゴリズムは、i.i.d より優れたものを提供します。
一般的な点のセットの圧縮。
KT は、入力ポイントよりも大幅に小さいサイズの忠実度の高いコアセットを生成することで、統計精度の損失を最小限に抑えながら、モンテカルロ積分、不確実性の定量化、ノンパラメトリック仮説検定などの教師なしタスクを高速化することが知られています。
この研究では、KT アルゴリズムを一般化して、カーネル法を含む教師あり学習問題を高速化します。
具体的には、Nadaraya-Watson (NW) 回帰またはカーネル スムージング、およびカーネル リッジ回帰 (KRR) という 2 つの古典的なアルゴリズムを KT と組み合わせて、トレーニング時間と推論時間の両方で 2 次の高速化を実現します。
各設定における KT による分散圧縮が適切なカーネルの構築にどのように還元されるかを示し、カーネル間分割 NW 推定器とカーネル間分割 KRR 推定器を紹介します。
KT ベースの回帰推定量は、フルデータ推定量よりも大幅に優れた計算効率を享受し、i.i.d. よりも統計効率が向上していることを証明します。
トレーニングデータのサブサンプリング。
途中で、KT を使用した圧縮に対する新しい乗法誤差保証も提供します。
シミュレーションと実際のデータ実験の両方を使用して、設計の選択を検証します。

要約(オリジナル)

The kernel thinning algorithm of Dwivedi & Mackey (2024) provides a better-than-i.i.d. compression of a generic set of points. By generating high-fidelity coresets of size significantly smaller than the input points, KT is known to speed up unsupervised tasks like Monte Carlo integration, uncertainty quantification, and non-parametric hypothesis testing, with minimal loss in statistical accuracy. In this work, we generalize the KT algorithm to speed up supervised learning problems involving kernel methods. Specifically, we combine two classical algorithms–Nadaraya-Watson (NW) regression or kernel smoothing, and kernel ridge regression (KRR)–with KT to provide a quadratic speed-up in both training and inference times. We show how distribution compression with KT in each setting reduces to constructing an appropriate kernel, and introduce the Kernel-Thinned NW and Kernel-Thinned KRR estimators. We prove that KT-based regression estimators enjoy significantly superior computational efficiency over the full-data estimators and improved statistical efficiency over i.i.d. subsampling of the training data. En route, we also provide a novel multiplicative error guarantee for compressing with KT. We validate our design choices with both simulations and real data experiments.

arxiv情報

著者 Albert Gong,Kyuseong Choi,Raaz Dwivedi
発行日 2024-10-17 16:48:51+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, math.ST, stat.ML, stat.TH パーマリンク