Exploring the Energy Landscape of RBMs: Reciprocal Space Insights into Bosons, Hierarchical Learning and Symmetry Breaking

要約

深い生成モデルは、複雑な分布から学習してサンプリングする能力により、遍在しています。
さまざまなフレームワークの急増にもかかわらず、これらのモデル間の関係はほとんど未開拓のままであり、AI学習の統一された理論の発展を妨げるギャップです。
2つの中心的な課題に対処します。さまざまな深い生成モデル間のつながりを明確にし、学習メカニズムの理解を深めます。
私たちは、離散分布の普遍的な近似能力で知られている制限付きボルツマンマシン(RBM)に焦点を当てています。
相互の空間定式化を導入することにより、RBMS、拡散プロセス、および結合ボソンの間の接続を明らかにします。
初期化時に、RBMはサドルポイントで動作します。この点では、局所曲率が単数値によって決定され、その分布はMarcenko-Pasturの法則に続き、回転対称性を示します。
トレーニング中、この回転対称性は、さまざまな程度の自由度が複数のレベルの抽象化で徐々に特徴をキャプチャするため、階層学習のために壊れます。
これは、ランダウ理論を連想させるエネルギー景観の対称性が破壊されます。
エネルギー景観のこの対称性は、特異値と重量マトリックス固有ベクトルマトリックスによって特徴付けられます。
対応する自由エネルギーを平均フィールド近似で導き出します。
無限のサイズのRBMの限界では、相互変数がガウス分布であることを示します。
私たちの調査結果は、この体制では、拡散プロセスがボルツマン分布に収束しないモードがいくつかあることを示しています。
結果を説明するために、MNISTデータセットを使用して、異なる隠れレイヤーサイズでRBMSのレプリカをトレーニングしました。
私たちの調査結果は、異なる生成的フレームワークの間のギャップを埋め、また生成モデルの学習を支えるプロセスに光を当てています。

要約(オリジナル)

Deep generative models have become ubiquitous due to their ability to learn and sample from complex distributions. Despite the proliferation of various frameworks, the relationships among these models remain largely unexplored, a gap that hinders the development of a unified theory of AI learning. We address two central challenges: clarifying the connections between different deep generative models and deepening our understanding of their learning mechanisms. We focus on Restricted Boltzmann Machines (RBMs), known for their universal approximation capabilities for discrete distributions. By introducing a reciprocal space formulation, we reveal a connection between RBMs, diffusion processes, and coupled Bosons. We show that at initialization, the RBM operates at a saddle point, where the local curvature is determined by the singular values, whose distribution follows the Marcenko-Pastur law and exhibits rotational symmetry. During training, this rotational symmetry is broken due to hierarchical learning, where different degrees of freedom progressively capture features at multiple levels of abstraction. This leads to a symmetry breaking in the energy landscape, reminiscent of Landau theory. This symmetry breaking in the energy landscape is characterized by the singular values and the weight matrix eigenvector matrix. We derive the corresponding free energy in a mean-field approximation. We show that in the limit of infinite size RBM, the reciprocal variables are Gaussian distributed. Our findings indicate that in this regime, there will be some modes for which the diffusion process will not converge to the Boltzmann distribution. To illustrate our results, we trained replicas of RBMs with different hidden layer sizes using the MNIST dataset. Our findings bridge the gap between disparate generative frameworks and also shed light on the processes underpinning learning in generative models.

arxiv情報

著者 J. Quetzalcóatl Toledo-Marin,Anindita Maiti,Geoffrey C. Fox,Roger G. Melko
発行日 2025-03-27 14:28:37+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cond-mat.dis-nn, cs.LG パーマリンク