On the Principle of Least Symmetry Breaking in Shallow ReLU Models

要約

ラベルがターゲット ネットワークによって生成されると仮定して、二乗損失に関して 2 層 ReLU ネットワークのフィッティングに関連する最適化問題を検討します。
まず標準的なガウス入力に焦点を当て、確率的勾配降下法 (SGD) によって検出された偽の極小値の構造が、明確に定義された意味で、ターゲットの重みに関して \emph{対称性の損失が最小}であることを示します。
分析を詳しく見ると、対称性の破れが最小であるというこの原則が、より広範囲の設定に適用できる可能性があることがわかります。
これを動機として、さまざまなクラスの非等方性非積分布、滑らかな活性化関数、および数層のネットワークに対してこの仮説を裏付ける一連の実験を実施します。

要約(オリジナル)

We consider the optimization problem associated with fitting two-layer ReLU networks with respect to the squared loss, where labels are assumed to be generated by a target network. Focusing first on standard Gaussian inputs, we show that the structure of spurious local minima detected by stochastic gradient descent (SGD) is, in a well-defined sense, the \emph{least loss of symmetry} with respect to the target weights. A closer look at the analysis indicates that this principle of least symmetry breaking may apply to a broader range of settings. Motivated by this, we conduct a series of experiments which corroborate this hypothesis for different classes of non-isotropic non-product distributions, smooth activation functions and networks with a few layers.

arxiv情報

著者 Yossi Arjevani,Michael Field
発行日 2023-12-28 14:44:06+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, stat.ML パーマリンク