Kernel Density Estimators in Large Dimensions

要約

この論文では、高次元分布 $\rho(x)$ のカーネル密度推定を研究します。
従来のアプローチは、多数のデータ点 $n$ と固定次元 $d$ の制限に焦点を当ててきました。
代わりに、データ点 $y_i$ の数 $n$ とその次元 $d$ が固定比率 $\alpha=(\log n)/d$ で増加する領域を分析します。
私たちの研究は、カーネルベースの密度推定 $\hat \rho_h^{\mathcal {D}}(x)=\frac{1}{n h^d}\sum_{i=1} に対する 3 つの異なる統計領域を明らかにしました。
^n K\left(\frac{x-y_i}{h}\right)$、帯域幅 $h$ に応じて: 中心極限定理 (CLT) が成り立つ大帯域幅の古典的な領域。
従来のアプローチで見られるものです。
帯域幅の特定の値 $h_{CLT}(\alpha)$ を下回ると、CLT が故障することがわかります。
$\rho(x)$ から導出された固定 $x$ に対する $\hat \rho_h^{\mathcal {D}}(x)$ の統計は、裾の重い分布 (アルファ安定分布) によって与えられます。

特に値 $h_G(\alpha)$ より下では、$\hat \rho_h^{\mathcal {D}}(x)$ が極値統計によって支配されていることがわかります。データベース内の数点のみが重要であり、
密度推定量への主な寄与。
高次元の多変量ガウス データの詳細な分析を提供します。
カルバックとライブラーの発散に基づく最適な帯域幅のしきい値は、この論文で特定された新しい統計領域にあることを示します。
私たちの発見は、古典的なアプローチの限界を明らかにし、これらの新しい統計レジームの関連性を示し、高次元設定におけるカーネル密度推定に対する新たな洞察を提供します。

要約(オリジナル)

This paper studies Kernel density estimation for a high-dimensional distribution $\rho(x)$. Traditional approaches have focused on the limit of large number of data points $n$ and fixed dimension $d$. We analyze instead the regime where both the number $n$ of data points $y_i$ and their dimensionality $d$ grow with a fixed ratio $\alpha=(\log n)/d$. Our study reveals three distinct statistical regimes for the kernel-based estimate of the density $\hat \rho_h^{\mathcal {D}}(x)=\frac{1}{n h^d}\sum_{i=1}^n K\left(\frac{x-y_i}{h}\right)$, depending on the bandwidth $h$: a classical regime for large bandwidth where the Central Limit Theorem (CLT) holds, which is akin to the one found in traditional approaches. Below a certain value of the bandwidth, $h_{CLT}(\alpha)$, we find that the CLT breaks down. The statistics of $\hat \rho_h^{\mathcal {D}}(x)$ for a fixed $x$ drawn from $\rho(x)$ is given by a heavy-tailed distribution (an alpha-stable distribution). In particular below a value $h_G(\alpha)$, we find that $\hat \rho_h^{\mathcal {D}}(x)$ is governed by extreme value statistics: only a few points in the database matter and give the dominant contribution to the density estimator. We provide a detailed analysis for high-dimensional multivariate Gaussian data. We show that the optimal bandwidth threshold based on Kullback-Leibler divergence lies in the new statistical regime identified in this paper. Our findings reveal limitations of classical approaches, show the relevance of these new statistical regimes, and offer new insights for Kernel density estimation in high-dimensional settings.

arxiv情報

著者 Giulio Biroli,Marc Mézard
発行日 2024-08-16 13:03:02+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cond-mat.dis-nn, cs.LG, math.ST, stat.ML, stat.TH パーマリンク