Optimal Neural Network Approximation for High-Dimensional Continuous Functions

要約

最近、Shen Yang Zhang (JMLR, 2022) の著者らは、幅 $36d(2d + 1)$ と深さ $11$ のニューラル ネットワークを開発しました。これは、超近似を達成するために、基本普遍活性化関数と呼ばれる特別な活性化関数を利用します。
$C([a,b]^d)$ の関数のプロパティ。
つまり、構築されたネットワークは、任意の精度で $d$ 次元の超立方体上の $d$ 変量連続関数を近似するために、固定数のニューロンのみを必要とします。
彼らのネットワークは $\mathcal{O}(d^2)$ 固定ニューロンを使用します。
対処すべき当然の疑問の 1 つは、そのようなネットワーク内のニューロンの数を減らすことができるかどうかです。
コルモゴロフ重ね合わせ定理の変形を利用することにより、我々の分析は、この超近似特性を達成する $366d +365$ だけの固定の固有 (非反復) ニューロンを備えた初等普遍活性化関数によって生成されたニューラル ネットワークが存在することを示しています。
さらに、近似において任意の精度を達成するには、少なくとも幅 $d$ 、したがって少なくとも $d$ の固有ニューロンを必要とする一連の関数のファミリーを提示します。
これは、$\mathcal{O}(d)$ 固有ニューロンの要件が、パラメータが $d$ とともに指数関数的に増加する可能性があるいくつかの近似法とは異なり、入力次元 $d$ とともに線形に増加するという意味で最適であることを示しています。

要約(オリジナル)

Recently, the authors of Shen Yang Zhang (JMLR, 2022) developed a neural network with width $36d(2d + 1)$ and depth $11$, which utilizes a special activation function called the elementary universal activation function, to achieve the super approximation property for functions in $C([a,b]^d)$. That is, the constructed network only requires a fixed number of neurons to approximate a $d$-variate continuous function on a $d$-dimensional hypercube with arbitrary accuracy. Their network uses $\mathcal{O}(d^2)$ fixed neurons. One natural question to address is whether we can reduce the number of these neurons in such a network. By leveraging a variant of the Kolmogorov Superposition Theorem, our analysis shows that there is a neural network generated by the elementary universal activation function with only $366d +365$ fixed, intrinsic (non-repeated) neurons that attains this super approximation property. Furthermore, we present a family of continuous functions that requires at least width $d$, and therefore at least $d$ intrinsic neurons, to achieve arbitrary accuracy in its approximation. This shows that the requirement of $\mathcal{O}(d)$ intrinsic neurons is optimal in the sense that it grows linearly with the input dimension $d$, unlike some approximation methods where parameters may grow exponentially with $d$.

arxiv情報

著者 Ayan Maiti,Michelle Michelle,Haizhao Yang
発行日 2024-09-10 13:40:15+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, stat.ML パーマリンク