要約
我々は、アーベル群の推論タスク(例:モジュラー加算)で訓練された、二次活性化と$L_2$損失を備えた2層ニューラルネットワークの解空間の豊富な代数構造を証明します。
このような豊富な構造により、非線形性が高いにもかかわらず、損失の一部のみを満足する部分解から大域的最適解を解析的に構築することが可能になります。
私たちはこのフレームワークを CoGO (Comusing Global Optimizers) と呼んでいます。
具体的には、2層ネットワークのさまざまな数の隠れノードにわたる重み空間が半リング代数構造を備えており、最適化される損失関数がリング準同型性である単項ポテンシャルで構成され、部分解を可能にすることを示します。
リングの加算と乗算によってグローバルなものに合成されます。
私たちの実験では、勾配降下法によって得られた解の約 $95\%$ が理論的な構造と正確に一致することがわかりました。
構築されたグローバル オプティマイザーには少数の隠れノードしか必要としませんでしたが、勾配ダイナミクスに関する分析では、過剰なパラメータ化がトレーニング ダイナミクスを漸近的に切り離し、有益であることが示されました。
さらに、トレーニングのダイナミクスは重みの減衰の下ではより単純な解を好むため、完全記憶などの高次のグローバル オプティマイザーは不利であることを示します。
要約(オリジナル)
We prove rich algebraic structures of the solution space for 2-layer neural networks with quadratic activation and $L_2$ loss, trained on reasoning tasks in Abelian group (e.g., modular addition). Such a rich structure enables analytical construction of global optimal solutions from partial solutions that only satisfy part of the loss, despite its high nonlinearity. We coin the framework as CoGO (Composing Global Optimizers). Specifically, we show that the weight space over different numbers of hidden nodes of the 2-layer network is equipped with a semi-ring algebraic structure, and the loss function to be optimized consists of monomial potentials, which are ring homomorphism, allowing partial solutions to be composed into global ones by ring addition and multiplication. Our experiments show that around $95\%$ of the solutions obtained by gradient descent match exactly our theoretical constructions. Although the global optimizers constructed only required a small number of hidden nodes, our analysis on gradient dynamics shows that over-parameterization asymptotically decouples training dynamics and is beneficial. We further show that training dynamics favors simpler solutions under weight decay, and thus high-order global optimizers such as perfect memorization are unfavorable.
arxiv情報
著者 | Yuandong Tian |
発行日 | 2024-10-24 15:35:48+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google