Parameter Symmetry Potentially Unifies Deep Learning Theory

要約

現代の大規模なAIシステムにおける学習のダイナミクスは階層的であり、多くの場合、物理システムで観察される相転移に似た突然の定性的シフトによって特徴付けられます。
これらの現象は、ニューラルネットワークと言語モデルの背後にあるメカニズムを明らかにするための約束を保持していますが、既存の理論は断片化されたままで、特定のケースに対処します。
このポジションペーパーでは、これらの断片化された理論を統合する際のパラメーター対称性の研究方向の重要な役割を提唱します。
この位置は、この方向の集中仮説に基づいています。パラメーター対称性の破壊と回復は、AIモデルの階層学習行動の根底にある統一メカニズムです。
私たちは、この研究の方向性が、神経ネットワークの3つの異なる階層の統一された理解につながる可能性があると主張するために、以前の観察と理論を統合します:学習ダイナミクス、モデルの複雑さ、表現形成の学習。
これらの階層を接続することにより、私たちのポジションペーパーは、理論物理学の礎である対称性を高め、現代AIの潜在的な基本原則になります。

要約(オリジナル)

The dynamics of learning in modern large AI systems is hierarchical, often characterized by abrupt, qualitative shifts akin to phase transitions observed in physical systems. While these phenomena hold promise for uncovering the mechanisms behind neural networks and language models, existing theories remain fragmented, addressing specific cases. In this position paper, we advocate for the crucial role of the research direction of parameter symmetries in unifying these fragmented theories. This position is founded on a centralizing hypothesis for this direction: parameter symmetry breaking and restoration are the unifying mechanisms underlying the hierarchical learning behavior of AI models. We synthesize prior observations and theories to argue that this direction of research could lead to a unified understanding of three distinct hierarchies in neural networks: learning dynamics, model complexity, and representation formation. By connecting these hierarchies, our position paper elevates symmetry — a cornerstone of theoretical physics — to become a potential fundamental principle in modern AI.

arxiv情報

著者 Liu Ziyin,Yizhou Xu,Tomaso Poggio,Isaac Chuang
発行日 2025-05-23 17:22:54+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cond-mat.dis-nn, cs.AI, cs.LG, stat.ML パーマリンク