Efficiently Learning One-Hidden-Layer ReLU Networks via Schur Polynomials

要約

二乗損失に関して $\mathbb{R}^d$ 上の標準ガウス分布の下で $k$ ReLU 活性化の線形結合を学習する PAC の問題を研究します。
私たちの主な結果は、サンプルと計算の複雑さ $(dk/\epsilon)^{O(k)}$ を伴うこの学習タスクの効率的なアルゴリズムです。$\epsilon>0$ が目標精度です。
以前の研究では、関数 $h(k)$ が $k$ で超多項式にスケールされる、複雑さ $(dk/\epsilon)^{h(k)}$ を持つこの問題のアルゴリズムが提供されていました。
興味深いことに、私たちのアルゴリズムの複雑さは、相関統計クエリ アルゴリズムのクラス内で最適に近いものです。
大まかに言うと、私たちのアルゴリズムはテンソル分解を使用して、すべての $O(k)$ 次モーメントが直交方向で小さくなるような部分空間を識別します。
その解析では、シュール多項式の理論を基本的に利用して、低次モーメントの誤差テンソルが小さいことを考慮すると、高次モーメントの誤差テンソルが小さいことを示します。

要約(オリジナル)

We study the problem of PAC learning a linear combination of $k$ ReLU activations under the standard Gaussian distribution on $\mathbb{R}^d$ with respect to the square loss. Our main result is an efficient algorithm for this learning task with sample and computational complexity $(dk/\epsilon)^{O(k)}$, where $\epsilon>0$ is the target accuracy. Prior work had given an algorithm for this problem with complexity $(dk/\epsilon)^{h(k)}$, where the function $h(k)$ scales super-polynomially in $k$. Interestingly, the complexity of our algorithm is near-optimal within the class of Correlational Statistical Query algorithms. At a high-level, our algorithm uses tensor decomposition to identify a subspace such that all the $O(k)$-order moments are small in the orthogonal directions. Its analysis makes essential use of the theory of Schur polynomials to show that the higher-moment error tensors are small given that the lower-order ones are.

arxiv情報

著者 Ilias Diakonikolas,Daniel M. Kane
発行日 2023-07-24 14:37:22+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.DS, cs.LG, math.ST, stat.ML, stat.TH パーマリンク