Improved convergence rate of kNN graph Laplacians

要約

グラフベースのデータ分析では、$k$-最近傍 ($k$NN) グラフが局所的なデータ密度への適応性により広く使用されています。
グラフ内に重み付けされたエッジを許可するカーネル化されたグラフ アフィニティは、$k$NN 距離を使用してカーネル帯域幅を適応的に設定する、より一般的なタイプの $k$NN グラフを提供します。
この研究では、グラフの親和性が $W_{ij} = \epsilon^{-d/2} \; である $k$NN グラフの一般クラスを考慮します。
k_0 ( \| x_i – x_j \|^2 / \epsilon \phi( \widehat{\rho}(x_i), \widehat{\rho}(x_j) )^2 ) $、$\widehat{\rho}
(x)$ は点 $x$ における (再スケーリングされた) $k$NN 距離、$\phi$ は対称二変量関数、$k_0$ は $[0,\infty)$ 上の非負関数です。

マニホールド データ設定では、$N$ i.i.d.
サンプル $x_i$ は、高次元ユークリッド空間に埋め込まれた $d$ 次元の未知多様体上の密度 $p$ から抽出され、$k$NN グラフのラプラシアンが極限多様体演算子に点ごとに収束することを証明します (
$p$ に応じて)、$k_0$ と $\phi$ が $C^3 の場合、対数係数まで $O(N^{-2/(d+6)}\,)$ のレートで
$規則性があり、その他の技術的条件を満たしていること。
この高速レートは、$\epsilon \sim N^{-2/(d+6)}\,$ と $k \sim N^{6/(d+6)}\,$ が両方とも最適な場合に得られます。
理論的なバイアスと分散エラーのバランスをとるためです。
$k_0$ と $\phi$ の規則性が低い場合 ($k_0$ が標準の $k$NN グラフのようにコンパクトにサポートされている関数である場合を含む)、収束率は $O(N^{-1/(d+
4)}\,)$。
改善された収束率は、独立して重要な $k$NN 推定量の洗練された分析に基づいています。
シミュレートされたデータの数値実験によって理論を検証します。

要約(オリジナル)

In graph-based data analysis, $k$-nearest neighbor ($k$NN) graphs are widely used due to their adaptivity to local data densities. Allowing weighted edges in the graph, the kernelized graph affinity provides a more general type of $k$NN graph where the $k$NN distance is used to set the kernel bandwidth adaptively. In this work, we consider a general class of $k$NN graph where the graph affinity is $W_{ij} = \epsilon^{-d/2} \; k_0 ( \| x_i – x_j \|^2 / \epsilon \phi( \widehat{\rho}(x_i), \widehat{\rho}(x_j) )^2 ) $, with $\widehat{\rho}(x)$ being the (rescaled) $k$NN distance at the point $x$, $\phi$ a symmetric bi-variate function, and $k_0$ a non-negative function on $[0,\infty)$. Under the manifold data setting, where $N$ i.i.d. samples $x_i$ are drawn from a density $p$ on a $d$-dimensional unknown manifold embedded in a high dimensional Euclidean space, we prove the point-wise convergence of the $k$NN graph Laplacian to the limiting manifold operator (depending on $p$) at the rate of $O(N^{-2/(d+6)}\,)$, up to a log factor, when $k_0$ and $\phi$ have $C^3$ regularity and satisfy other technical conditions. This fast rate is obtained when $\epsilon \sim N^{-2/(d+6)}\,$ and $k \sim N^{6/(d+6)}\,$, both at the optimal order to balance the theoretical bias and variance errors. When $k_0$ and $\phi$ have lower regularities, including when $k_0$ is a compactly supported function as in the standard $k$NN graph, the convergence rate degenerates to $O(N^{-1/(d+4)}\,)$. Our improved convergence rate is based on a refined analysis of the $k$NN estimator, which can be of independent interest. We validate our theory by numerical experiments on simulated data.

arxiv情報

著者 Yixuan Tan,Xiuyuan Cheng
発行日 2024-10-30 17:01:00+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, math.ST, stat.ML, stat.TH パーマリンク