High-Dimensional Smoothed Entropy Estimation via Dimensionality Reduction

要約

ガウス畳み込みの下での微分エントロピー推定において、指数関数的なサンプル複雑性を克服する問題を研究する。具体的には、$X$と$Z$は独立した$D$次元の確率変数で、$X$は有界二次モーメントを持つサブガウス型、$Zsimmathcal{N}(0,¥sigma^2I_D)$であり、$n$独立かつ同一分布のサンプルを介した微分エントロピーの推定を検討する。絶対誤差損失のもとでは、上記問題はパラメトリック推定率が$frac{c^D}{sqrt{n}}$であり、これはデータ次元$D$で指数的であり、応用上しばしば問題となる。我々は、エントロピー推定の前に主成分分析(PCA)によって$X$を低次元空間に投影することで、この指数的なサンプル複雑性を克服し、PCAの説明できない分散が消えるにつれて漸近誤差オーバーヘッドが消失することを示す。これは、高次元空間に埋め込まれた本質的に低次元の構造(ディープニューラルネットワーク(DNN)の隠れ層出力など)に対して最適に近い性能を持つことを意味し、DNNの相互情報(MI)の推定に利用することが可能である。我々は、ガウスデータとスパイラルデータに対する我々のPCAアプローチの性能を検証する数値結果を提供する。また、本手法をニューラルネットワークの層を通る情報の流れの分析(情報ボトルネック)に応用し、MNIST分類のためのノイズの多い完全接続ネットワークとノイズの多い畳み込みニューラルネットワーク(CNN)における相互情報を測定した結果も示す。

要約(オリジナル)

We study the problem of overcoming exponential sample complexity in differential entropy estimation under Gaussian convolutions. Specifically, we consider the estimation of the differential entropy $h(X+Z)$ via $n$ independently and identically distributed samples of $X$, where $X$ and $Z$ are independent $D$-dimensional random variables with $X$ sub-Gaussian with bounded second moment and $Z\sim\mathcal{N}(0,\sigma^2I_D)$. Under the absolute-error loss, the above problem has a parametric estimation rate of $\frac{c^D}{\sqrt{n}}$, which is exponential in data dimension $D$ and often problematic for applications. We overcome this exponential sample complexity by projecting $X$ to a low-dimensional space via principal component analysis (PCA) before the entropy estimation, and show that the asymptotic error overhead vanishes as the unexplained variance of the PCA vanishes. This implies near-optimal performance for inherently low-dimensional structures embedded in high-dimensional spaces, including hidden-layer outputs of deep neural networks (DNN), which can be used to estimate mutual information (MI) in DNNs. We provide numerical results verifying the performance of our PCA approach on Gaussian and spiral data. We also apply our method to analysis of information flow through neural network layers (c.f. information bottleneck), with results measuring mutual information in a noisy fully connected network and a noisy convolutional neural network (CNN) for MNIST classification.

arxiv情報

著者 Kristjan Greenewald,Brian Kingsbury,Yuancheng Yu
発行日 2023-05-11 14:47:24+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.IT, cs.LG, math.IT パーマリンク