High-Dimensional Smoothed Entropy Estimation via Dimensionality Reduction

要約

タイトル: 高次元平滑エントロピー推定の次元削減による改良
要約:
– 微分エントロピー推定の指数的なサンプル複雑性を克服する問題を研究する。
– 具体的には、$X$と$Z$が独立した$D$次元の確率変数であり、$X$が有界2次モーメントのサブガウス性を持ち、$Z$が$\mathcal{N}(0,\sigma^2I_D)$に従うとして、$X$の$n$個の独立同分布標本を用いて微分エントロピー$h(X+Z)$を推定する問題を考える。
– 絶対誤差損失において、上記問題はデータ次元$D$に指数的な推定率$\frac{c^D}{\sqrt{n}}$を持つため、アプリケーションにおいて問題が生じることがよくある。
– PCAによって$X$を低次元空間に射影することで、指数的なサンプル複雑性を克服する。
– PCAの未説明分散がゼロに近づくにつれて、漸近的にエラーオーバーヘッドが消失することを示す。
– これは、高次元空間に埋め込まれた本質的に低次元の構造(深層ニューラルネットワークの隠れ層出力を含む)に対して近似的に最適な性能を提供し、DNN内の相互情報(MI)を推定するために使用することができる。
– ガウスとスパイラルデータでPCA手法の性能を検証する数値実験を提供する。
– また、ニューラルネットワーク層を介した情報フローの解析(情報ボトルネック)に対して、騒々しい全結合ネットワークとMNIST分類のための騒々しい畳み込みニューラルネットワーク(CNN)において相互情報を測定する結果を提供する。

要約(オリジナル)

We study the problem of overcoming exponential sample complexity in differential entropy estimation under Gaussian convolutions. Specifically, we consider the estimation of the differential entropy $h(X+Z)$ via $n$ independently and identically distributed samples of $X$, where $X$ and $Z$ are independent $D$-dimensional random variables with $X$ subgaussian with bounded second moment and $Z\sim\mathcal{N}(0,\sigma^2I_D)$. Under the absolute-error loss, the above problem has a parametric estimation rate of $\frac{c^D}{\sqrt{n}}$, which is exponential in data dimension $D$ and often problematic for applications. We overcome this exponential sample complexity by projecting $X$ to a low-dimensional space via principal component analysis (PCA) before the entropy estimation, and show that the asymptotic error overhead vanishes as the unexplained variance of the PCA vanishes. This implies near-optimal performance for inherently low-dimensional structures embedded in high-dimensional spaces, including hidden-layer outputs of deep neural networks (DNN), which can be used to estimate mutual information (MI) in DNNs. We provide numerical results verifying the performance of our PCA approach on Gaussian and spiral data. We also apply our method to analysis of information flow through neural network layers (c.f. information bottleneck), with results measuring mutual information in a noisy fully connected network and a noisy convolutional neural network (CNN) for MNIST classification.

arxiv情報

著者 Kristjan Greenewald,Brian Kingsbury,Yuancheng Yu
発行日 2023-05-08 13:51:48+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.IT, cs.LG, math.IT パーマリンク