Hidden Minima in Two-Layer ReLU Networks

要約

$d$~inputs、$k$~neurons、およびターゲットネットワークによって生成されたラベルを持つ2層ReLUネットワークのフィッティングに関連する最適化問題を検討します。
$d$ ごとに 1 つの最小値を与える 2 種類の偽最小値の無限族が最近発見されました。
最初のタイプに属する最小値での損失は、$d$ が増加するにつれてゼロに収束します。
2 番目のタイプでは、損失はゼロから離れた範囲にとどまります。
それでは、後者のタイプに属する最小値を回避するにはどうすればよいでしょうか?
幸いなことに、そのような最小値は標準の最適化手法では決して検出されません。
この現象の性質に関する疑問を動機として、私たちは隠れた極小値の独特の分析特性を研究する方法を開発します。
既存の解析によると、両方のタイプのヘッセ行列スペクトルは $O(d^{-1/2})$-terms を法として一致しますが、有望ではありません。
したがって、むしろ、我々の調査は、一般に接線円弧と呼ばれる、損失が最小化または最大化される曲線を研究することによって進められます。
$S_d$ の部分群の作用に対して不変な部分空間の配置に関する、明らかにかけ離れた群表現理論的考察が、作用によって固定されたものと比較して、すべての有限空間の正確な記述を生み出すことを証明します。
多くの許容される接線円弧のタイプ。
損失関数に使用された一般的な結果は、隠れた極小値から発せられる弧は、正確には以前の研究には存在しなかった $O(d^{-1/2})$-eigenvalue 項のせいで、その構造と対称性が特徴的に異なることを明らかにします。
、特に分析の繊細さを示しています。
o-最小構造について述べられ証明された理論的結果は、すべての接線円弧を含むセットが位相学的に十分に飼いならされており、接線円弧の数値的構築を可能にし、両方のタイプの最小値が隣接する臨界点に対してどのように配置されるかを比較することを示しています。

要約(オリジナル)

The optimization problem associated to fitting two-layer ReLU networks having $d$~inputs, $k$~neurons, and labels generated by a target network, is considered. Two types of infinite families of spurious minima, giving one minimum per $d$, were recently found. The loss at minima belonging to the first type converges to zero as $d$ increases. In the second type, the loss remains bounded away from zero. That being so, how may one avoid minima belonging to the latter type? Fortunately, such minima are never detected by standard optimization methods. Motivated by questions concerning the nature of this phenomenon, we develop methods to study distinctive analytic properties of hidden minima. By existing analyses, the Hessian spectrum of both types agree modulo $O(d^{-1/2})$-terms — not promising. Thus, rather, our investigation proceeds by studying curves along which the loss is minimized or maximized, generally referred to as tangency arcs. We prove that apparently far removed group representation-theoretic considerations concerning the arrangement of subspaces invariant to the action of subgroups of $S_d$, the symmetry group over $d$ symbols, relative to ones fixed by the action yield a precise description of all finitely many admissible types of tangency arcs. The general results used for the loss function reveal that arcs emanating from hidden minima differ, characteristically, by their structure and symmetry, precisely on account of the $O(d^{-1/2})$-eigenvalue terms absent in previous work, indicating in particular the subtlety of the analysis. The theoretical results, stated and proved for o-minimal structures, show that the set comprising all tangency arcs is topologically sufficiently tame to enable a numerical construction of tangency arcs and so compare how minima, both types, are positioned relative to adjacent critical points.

arxiv情報

著者 Yossi Arjevani
発行日 2024-02-19 17:33:41+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, math.OC, stat.ML パーマリンク