Why Learning of Large-Scale Neural Networks Behaves Like Convex Optimization

要約

タイトル: 大規模ニューラルネットワークの学習が凸最適化と同様の行動をする理由

要約:

– 研究者たちは、大規模ニューラルネットワークの学習において、シンプルな勾配降下法が非凸最適化問題を解くのに成功する理由を理論的に説明するためのいくつかの理論的なアプローチを提供する。

– 数学的ツールである正規化空間を紹介した後、研究者たちは、学習ニューラルネットワークの目的関数が正規化モデル空間で凸であることを証明している。

– さらに、オリジナルのNNモデル空間と正規化空間の間の勾配は、ディスパリティマトリックスによって表される点ごとの線形変換によって関連付けられることも明らかになっている。

– また、研究者たちは、ディスパリティマトリックスがフルランクである限り、勾配降下法がゼロ損失のグローバル最小値に収束することを証明している。このフルランク条件が満たされている場合、NNの学習は通常の凸最適化と同様に行動する。

– 最後に、研究者たちは、大規模なNNで奇異なディスパリティマトリックスを持つ可能性が非常に低いことが示されている。特に、オーバーパラメーター化されたNNはランダムに初期化された場合、勾配降下アルゴリズムは確率的にゼロ損失のグローバル最小値に収束する。

要約(オリジナル)

In this paper, we present some theoretical work to explain why simple gradient descent methods are so successful in solving non-convex optimization problems in learning large-scale neural networks (NN). After introducing a mathematical tool called canonical space, we have proved that the objective functions in learning NNs are convex in the canonical model space. We further elucidate that the gradients between the original NN model space and the canonical space are related by a pointwise linear transformation, which is represented by the so-called disparity matrix. Furthermore, we have proved that gradient descent methods surely converge to a global minimum of zero loss provided that the disparity matrices maintain full rank. If this full-rank condition holds, the learning of NNs behaves in the same way as normal convex optimization. At last, we have shown that the chance to have singular disparity matrices is extremely slim in large NNs. In particular, when over-parameterized NNs are randomly initialized, the gradient decent algorithms converge to a global minimum of zero loss in probability.

arxiv情報

著者 Hui Jiang
発行日 2023-04-27 18:51:47+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.AI, cs.LG, cs.NE, stat.ML パーマリンク