The autoregressive neural network architecture of the Boltzmann distribution of pairwise interacting spins systems

要約

Generative Autoregressive Neural Networks (ARNN) は最近、画像および言語の生成タスクで優れた結果を示しており、科学および商用アプリケーションの両方で生成モデルの人気が高まっています。
この作業は、バイナリ ペアワイズ相互作用システムのボルツマン分布を自己回帰形式に再定式化することにより、ARNN の物理的解釈を提示します。
結果として得られる ARNN アーキテクチャには、ハミルトニアンのカップリングと外部フィールドに対応する最初の層の重みとバイアスがあり、残差接続や明確な物理的意味を持つ再帰型アーキテクチャなどの広く使用されている構造が特徴です。
ただし、システムのサイズに応じて、隠れ層のパラメーター数が指数関数的に増加するため、その直接的な適用は実行不可能になります。
それにもかかわらず、そのアーキテクチャの明示的な定式化により、統計物理学の手法を使用して、特定のシステムの新しい ARNN を導き出すことができます。
例として、新しい効果的な ARNN アーキテクチャは、2 つのよく知られた平均場システム、キュリー ワイス モデルとシェリントン カークパトリック モデルから派生し、他の一般的に使用される ARNN アーキテクチャと比較して、対応する物理モデルのボルツマン分布を近似する優れたパフォーマンスを示します。
システムの物理と ARNN アーキテクチャの間に確立された接続は、相互作用するさまざまなシステムの新しいニューラル ネットワーク アーキテクチャを導き出し、物理的な観点から既存のものを解釈する方法を提供します。

要約(オリジナル)

Generative Autoregressive Neural Networks (ARNN) have recently demonstrated exceptional results in image and language generation tasks, contributing to the growing popularity of generative models in both scientific and commercial applications. This work presents a physical interpretation of the ARNNs by reformulating the Boltzmann distribution of binary pairwise interacting systems into autoregressive form. The resulting ARNN architecture has weights and biases of its first layer corresponding to the Hamiltonian’s couplings and external fields, featuring widely used structures like the residual connections and a recurrent architecture with clear physical meanings. However, the exponential growth, with system size, of the number of parameters of the hidden layers makes its direct application unfeasible. Nevertheless, its architecture’s explicit formulation allows using statistical physics techniques to derive new ARNNs for specific systems. As examples, new effective ARNN architectures are derived from two well-known mean-field systems, the Curie-Weiss and Sherrington-Kirkpatrick models, showing superior performances in approximating the Boltzmann distributions of the corresponding physics model compared to other commonly used ARNN architectures. The connection established between the physics of the system and the ARNN architecture provides a way to derive new neural network architectures for different interacting systems and interpret existing ones from a physical perspective.

arxiv情報

著者 Indaco Biazzo
発行日 2023-03-08 17:17:24+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cond-mat.dis-nn, cond-mat.stat-mech, cs.LG, stat.ML パーマリンク