Stronger Coreset Bounds for Kernel Density Estimators via Chaining

要約

不一致法と連鎖アプローチを適用して、幅広いクラスのカーネル関数のコアセットの複雑さの制限を改善しました。
私たちの結果は、サイズ $O\big(\frac{\sqrt{d}}{\varepsilon}\sqrt{\log\log \frac{1}{\varepsilon}}\big) のコアセットを生成するランダム化多項式時間アルゴリズムを提供します。
$ は、データセットが均一に制限されている場合のガウス カーネルとラプラシアン カーネルに適用されます。これは、以前の手法では不可能であった改善です。
また、$d$ 定数のラプラシアン カーネルのサイズ $O\big(\frac{1}{\varepsilon}\sqrt{\log\log \frac{1}{\varepsilon}}\big)$ のコアセットも取得します。

最後に、$O\big(\frac{\sqrt{d}}{\varepsilon}\sqrt{\log(2\max\{1,\alpha\})}\big)$ の既知の範囲を与えます。
エクスポネンシャル カーネル、ヘリンジャー カーネル、および JS カーネルのコアセットの複雑さについて説明します。$1/\alpha$ はカーネルの帯域幅パラメータです。

要約(オリジナル)

We apply the discrepancy method and a chaining approach to give improved bounds on the coreset complexity of a wide class of kernel functions. Our results give randomized polynomial time algorithms to produce coresets of size $O\big(\frac{\sqrt{d}}{\varepsilon}\sqrt{\log\log \frac{1}{\varepsilon}}\big)$ for the Gaussian and Laplacian kernels in the case that the data set is uniformly bounded, an improvement that was not possible with previous techniques. We also obtain coresets of size $O\big(\frac{1}{\varepsilon}\sqrt{\log\log \frac{1}{\varepsilon}}\big)$ for the Laplacian kernel for $d$ constant. Finally, we give the best known bounds of $O\big(\frac{\sqrt{d}}{\varepsilon}\sqrt{\log(2\max\{1,\alpha\})}\big)$ on the coreset complexity of the exponential, Hellinger, and JS Kernels, where $1/\alpha$ is the bandwidth parameter of the kernel.

arxiv情報

著者 Rainie Bozzai,Thomas Rothvoss
発行日 2023-10-12 17:44:59+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CG, cs.DS, cs.LG パーマリンク