Stochastic Gradient Descent and Anomaly of Variance-flatness Relation in Artificial Neural Networks

要約

深層学習ニューラル ネットワークで広く使用されているアルゴリズムである確率的勾配降下法 (SGD) は、その成功の背後にある理論原理についての継続的な研究を集めています。
最近の研究では、ニューラル重みの分散と SGD に基づいて駆動される損失関数のランドスケープ平坦性との間の異常 (逆) 関係が報告されています [Feng & Tu、PNAS 118、0027 (2021)]。
一見すると統計物理学の原則に違反しているように見えるこの現象を調査するために、固定点付近の SGD の特性が動的分解法によって分析されます。
私たちのアプローチは、普遍的なボルツマン分布が成立する真の「エネルギー」関数を回復します。
これは一般的なコスト関数とは異なり、異常によって引き起こされるパラドックスを解決します。
この研究は、古典的な統計力学と人工知能の新興分野の間のギャップを埋めるものであり、後者により優れたアルゴリズムが提供される可能性があります。

要約(オリジナル)

Stochastic gradient descent (SGD), a widely used algorithm in deep-learning neural networks has attracted continuing studies for the theoretical principles behind its success. A recent work reports an anomaly (inverse) relation between the variance of neural weights and the landscape flatness of the loss function driven under SGD [Feng & Tu, PNAS 118, 0027 (2021)]. To investigate this seemingly violation of statistical physics principle, the properties of SGD near fixed points are analysed via a dynamic decomposition method. Our approach recovers the true ‘energy’ function under which the universal Boltzmann distribution holds. It differs from the cost function in general and resolves the paradox raised by the the anomaly. The study bridges the gap between the classical statistical mechanics and the emerging discipline of artificial intelligence, with potential for better algorithms to the latter.

arxiv情報

著者 Xia Xiong,Yong-Cong Chen,Chunxiao Shi,Ping Ao
発行日 2023-06-12 14:49:09+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, nlin.AO パーマリンク