Depth Separation with Multilayer Mean-Field Networks

要約

タイトル:Multilayer Mean-Field Networksによる深さの分離

要約:

– 深層学習理論において、浅いネットワークより深いネットワークの方がより強力であるという深さの分離という問題が存在する。
– 以前の研究では、表現力に焦点を当てた結果が多い。
– この論文では、arXiv:1904.06984で構築された関数が3層ネットワークで容易に近似できるが、2層ネットワークでは近似できないことを示し、この分離がアルゴリズム的であることを示す。
– これは、多項式の数のニューロンで過剰パラメータ化されたネットワークを使用してarXiv:1904.06984によって構築された関数を効率的に学習できることを示している。
– この結果は、多層ネットワークに平均場極限を拡張する新しい方法と、無限幅平均場ネットワークの離散化によって導入された誤差を分解する手法に依存している。

要約(オリジナル)

Depth separation — why a deeper network is more powerful than a shallower one — has been a major problem in deep learning theory. Previous results often focus on representation power. For example, arXiv:1904.06984 constructed a function that is easy to approximate using a 3-layer network but not approximable by any 2-layer network. In this paper, we show that this separation is in fact algorithmic: one can learn the function constructed by arXiv:1904.06984 using an overparameterized network with polynomially many neurons efficiently. Our result relies on a new way of extending the mean-field limit to multilayer networks, and a decomposition of loss that factors out the error introduced by the discretization of infinite-width mean-field networks.

arxiv情報

著者 Yunwei Ren,Mo Zhou,Rong Ge
発行日 2023-04-03 15:18:16+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.LG, math.OC パーマリンク