Effective Minkowski Dimension of Deep Nonparametric Regression: Function Approximation and Statistical Theories

要約

深層ノンパラメトリック回帰に関する既存の理論は、入力データが低次元多様体上にある場合、深層ニューラル ネットワークが固有のデータ構造に適応できることを示しています。
現実世界のアプリケーションでは、データが低次元多様体上に正確に存在するというこのような仮定は厳密です。
この論文では、入力データが $\mathcal{S}$ で示される $\mathbb{R}^d$ のサブセットの周囲に集中しており、$\mathcal{S}$ の固有次元を特徴付けることができるという緩和された仮定を導入しています。
新しい複雑さの表記法、つまり有効なミンコフスキー次元によるものです。
深層ノンパラメトリック回帰のサンプルの複雑さは、$p$ で示される $\mathcal{S}$ の有効ミンコフスキー次元にのみ依存することを証明します。
さらに、異方性ガウスランダム設計 $N(0,\Sigma)$ ($\Sigma$ はフルランク) を使用したノンパラメトリック回帰を考慮することで、理論的な結果を説明します。
$\Sigma$ の固有値が指数関数的または多項式減衰する場合、そのようなガウスランダム計画の実効ミンコフスキー次元は $p=\mathcal{O}(\sqrt{\log n})$ または $p=\mathcal となります。
それぞれ {O}(n^\gamma)$ です。$n$ はサンプル サイズ、$\gamma\in(0,1)$ は多項式の減衰率に応じた小さな定数です。
私たちの理論は、多様体仮定が当てはまらない場合でも、ディープ ニューラル ネットワークはデータの実効ミンコフスキー次元に適応し、中程度のサンプル サイズではアンビエント次元の呪いを回避できることを示しています。

要約(オリジナル)

Existing theories on deep nonparametric regression have shown that when the input data lie on a low-dimensional manifold, deep neural networks can adapt to the intrinsic data structures. In real world applications, such an assumption of data lying exactly on a low dimensional manifold is stringent. This paper introduces a relaxed assumption that the input data are concentrated around a subset of $\mathbb{R}^d$ denoted by $\mathcal{S}$, and the intrinsic dimension of $\mathcal{S}$ can be characterized by a new complexity notation — effective Minkowski dimension. We prove that, the sample complexity of deep nonparametric regression only depends on the effective Minkowski dimension of $\mathcal{S}$ denoted by $p$. We further illustrate our theoretical findings by considering nonparametric regression with an anisotropic Gaussian random design $N(0,\Sigma)$, where $\Sigma$ is full rank. When the eigenvalues of $\Sigma$ have an exponential or polynomial decay, the effective Minkowski dimension of such an Gaussian random design is $p=\mathcal{O}(\sqrt{\log n})$ or $p=\mathcal{O}(n^\gamma)$, respectively, where $n$ is the sample size and $\gamma\in(0,1)$ is a small constant depending on the polynomial decay rate. Our theory shows that, when the manifold assumption does not hold, deep neural networks can still adapt to the effective Minkowski dimension of the data, and circumvent the curse of the ambient dimensionality for moderate sample sizes.

arxiv情報

著者 Zixuan Zhang,Minshuo Chen,Mengdi Wang,Wenjing Liao,Tuo Zhao
発行日 2023-06-26 17:13:31+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, stat.ML パーマリンク