Absence of Closed-Form Descriptions for Gradient Flow in Two-Layer Narrow Networks

要約

機械学習の分野では、ニューラル ネットワークの複雑なトレーニング ダイナミクスを理解することが大きな課題となります。
この論文では、ニューラル ネットワークのトレーニング ダイナミクス、特にこれらのダイナミクスが一般的な閉じた形式のソリューションで表現できるかどうかを検討します。
我々は、2層の狭いネットワークにおける勾配流のダイナミクスが統合可能なシステムではないことを実証します。
可積分システムは、一次積分 (不変量) のレベルセットによって定義される部分多様体に限定された軌跡によって特徴づけられ、予測可能かつ還元可能なダイナミクスを容易にします。
対照的に、非統合システムは、予測が難しい複雑な動作を示します。
非可積分性を確立するために、線形微分方程式の可解性に焦点を当てた微分ガロア理論を採用します。
穏やかな条件下では、勾配流の変分方程式の微分ガロア群の恒等成分が解けないことを示します。
この結果は、システムの非可積分性を確認し、トレーニングのダイナミクスがリウヴィリアン関数で表現できないことを意味し、これらのダイナミクスを記述するための閉形式の解決策が不可能になります。
私たちの調査結果は、ニューラル ネットワーク内の最適化問題に取り組むために数値的手法を採用する必要性を強調しています。
この結果は、ニューラル ネットワークのトレーニング ダイナミクスと、それが機械学習の最適化戦略に与える影響についてのより深い理解に貢献します。

要約(オリジナル)

In the field of machine learning, comprehending the intricate training dynamics of neural networks poses a significant challenge. This paper explores the training dynamics of neural networks, particularly whether these dynamics can be expressed in a general closed-form solution. We demonstrate that the dynamics of the gradient flow in two-layer narrow networks is not an integrable system. Integrable systems are characterized by trajectories confined to submanifolds defined by level sets of first integrals (invariants), facilitating predictable and reducible dynamics. In contrast, non-integrable systems exhibit complex behaviors that are difficult to predict. To establish the non-integrability, we employ differential Galois theory, which focuses on the solvability of linear differential equations. We demonstrate that under mild conditions, the identity component of the differential Galois group of the variational equations of the gradient flow is non-solvable. This result confirms the system’s non-integrability and implies that the training dynamics cannot be represented by Liouvillian functions, precluding a closed-form solution for describing these dynamics. Our findings highlight the necessity of employing numerical methods to tackle optimization problems within neural networks. The results contribute to a deeper understanding of neural network training dynamics and their implications for machine learning optimization strategies.

arxiv情報

著者 Yeachan Park
発行日 2024-08-15 17:40:11+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, math.DS パーマリンク