A method for quantifying the generalization capabilities of generative models for solving Ising models

要約

複雑なエネルギーランドスケープを持つイジングモデルの場合、基底状態をニューラルネットワークで見つけられるかどうかは、学習データセットと基底状態とのハミング距離に大きく依存する。最近提案された様々な生成モデルが、イジングモデルの解法において良好な性能を示しているにもかかわらず、それらの汎化能力をどのように定量化するかについては十分な議論がなされていない。本論文では、生成モデルの一種である変分自己回帰ネットワーク(VAN)の枠組みの中でハミング距離正則化器を設計し、VANと組み合わせた様々なネットワークアーキテクチャの汎化能力を定量化する。正則化器は、ネットワークによって生成される基底状態と学習データセットとの重なりの大きさを制御することができ、基底状態を見つける成功率とともに、汎化能力を定量化するための定量的な指標を形成する。我々は、VANと組み合わせたいくつかの典型的なネットワークアーキテクチャ(フィードフォワードニューラルネットワーク、リカレントニューラルネットワーク、グラフニューラルネットワークなど)について数値実験を行い、イジングモデルを解く際の汎化能力を定量化する。さらに、小規模な問題におけるネットワークの汎化能力の定量化は、大規模な問題におけるネットワークの相対的な性能の予測に用いることができるという事実を考慮すると、本手法は、大規模なイジングモデルを解く際に最適なネットワークアーキテクチャを探索するニューラルアーキテクチャ探索分野を支援する上で大きな意義がある。

要約(オリジナル)

For Ising models with complex energy landscapes, whether the ground state can be found by neural networks depends heavily on the Hamming distance between the training datasets and the ground state. Despite the fact that various recently proposed generative models have shown good performance in solving Ising models, there is no adequate discussion on how to quantify their generalization capabilities. Here we design a Hamming distance regularizer in the framework of a class of generative models, variational autoregressive networks (VAN), to quantify the generalization capabilities of various network architectures combined with VAN. The regularizer can control the size of the overlaps between the ground state and the training datasets generated by networks, which, together with the success rates of finding the ground state, form a quantitative metric to quantify their generalization capabilities. We conduct numerical experiments on several prototypical network architectures combined with VAN, including feed-forward neural networks, recurrent neural networks, and graph neural networks, to quantify their generalization capabilities when solving Ising models. Moreover, considering the fact that the quantification of the generalization capabilities of networks on small-scale problems can be used to predict their relative performance on large-scale problems, our method is of great significance for assisting in the Neural Architecture Search field of searching for the optimal network architectures when solving large-scale Ising models.

arxiv情報

著者 Qunlong Ma,Zhi Ma,Ming Gao
発行日 2024-05-06 12:58:48+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cond-mat.dis-nn, cs.AI, cs.LG パーマリンク