How Many Neurons Does it Take to Approximate the Maximum?

要約

ReLU アクティベーションを使用するネットワークの、連続分布の $L_2$ ノルムに関して近似する最も基本的な設定で、$d$ 入力にわたる最大関数を近似するために必要なニューラル ネットワークのサイズを研究します。
さまざまな深さにわたる近似に必要な幅の新しい下限と上限を提供します。
私たちの結果は、深さ 2 と 3、および深さ 3 と 5 のネットワーク間の新しい深さの分離を確立し、深さ $\mathcal{O}(\log(\log(d)))$ と幅 $\mathcal{O を提供します。
}(d)$ 最大関数を近似する構造。
深さ分離の結果は、重みのサイズに指数関数的な上限を仮定して、一様分布にわたる最大関数を近似する深さ 2 ネットワークの新しい下限によって容易になります。
さらに、この深さ 2 の下限を使用して、深さ 3 のネットワークで最大値を近似するために必要なニューロンの数に厳密な制限を与えることができます。
私たちの下限は、特別に構築された関数や病理学的な関数や分布に基づいて境界を設定する以前の多くの結果とは対照的に、広く研究され使用されている \emph{max} 関数に適用されるため、潜在的に幅広い関心を集めます。

要約(オリジナル)

We study the size of a neural network needed to approximate the maximum function over $d$ inputs, in the most basic setting of approximating with respect to the $L_2$ norm, for continuous distributions, for a network that uses ReLU activations. We provide new lower and upper bounds on the width required for approximation across various depths. Our results establish new depth separations between depth 2 and 3, and depth 3 and 5 networks, as well as providing a depth $\mathcal{O}(\log(\log(d)))$ and width $\mathcal{O}(d)$ construction which approximates the maximum function. Our depth separation results are facilitated by a new lower bound for depth 2 networks approximating the maximum function over the uniform distribution, assuming an exponential upper bound on the size of the weights. Furthermore, we are able to use this depth 2 lower bound to provide tight bounds on the number of neurons needed to approximate the maximum by a depth 3 network. Our lower bounds are of potentially broad interest as they apply to the widely studied and used \emph{max} function, in contrast to many previous results that base their bounds on specially constructed or pathological functions and distributions.

arxiv情報

著者 Itay Safran,Daniel Reichman,Paul Valiant
発行日 2023-11-07 17:50:27+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG パーマリンク