Deep reinforced learning heuristic tested on spin-glass ground states: The larger picture


Changjun Fan et al.
[Nature Communications (2023)]、著者らは、組み合わせ最適化ヒューリスティックを強化するための深層強化学習アプローチを紹介しています。
特に、シミュレーション アニーリング (SA) や平行焼戻し (PT) などのいくつかのモンテカルロ ベースの方法と比較して、非平面ネットワーク上のインスタンスは一般に NP 困難である、いくつかのスピン グラス基底状態問題の結果を示します。

実際、これらの結果は、強化学習により、SA または PT で得られた結果よりも結果が向上するか、少なくとも、他の方法と比較して同等の品質の結果が得られるまでのヒューリスティックの実行時間を短縮できることが示されています。
彼らの方法が「優れている」という結論を容易にするために、著者らは 2 つの基本戦略を追求しています。(1) 商用の GUROBI ソルバーを使用して、比較するテストベッドとして正確な基底状態のサンプルを入手します。(2)
たとえば、著者らが言及したように、この方法は $d>2$ の剛性指数 $\theta$ を決定する手段としては無意味になります。この問題は NP 困難であるだけでなく、ほぼ等しい 2 つのグラウンドの減算を必要とします。
ここで見つかった $\およそ 1\%$ のそれぞれの状態エネルギーと系統誤差は許容できません。


In Changjun Fan et al. [Nature Communications (2023)], the authors present a deep reinforced learning approach to augment combinatorial optimization heuristics. In particular, they present results for several spin glass ground state problems, for which instances on non-planar networks are generally NP-hard, in comparison with several Monte Carlo based methods, such as simulated annealing (SA) or parallel tempering (PT). Indeed, those results demonstrate that the reinforced learning improves the results over those obtained with SA or PT, or at least allows for reduced runtimes for the heuristics before results of comparable quality have been obtained relative to those other methods. To facilitate the conclusion that their method is ”superior”, the authors pursue two basic strategies: (1) A commercial GUROBI solver is called on to procure a sample of exact ground states as a testbed to compare with, and (2) a head-to-head comparison between the heuristics is given for a sample of larger instances where exact ground states are hard to ascertain. Here, we put these studies into a larger context, showing that the claimed superiority is at best marginal for smaller samples and becomes essentially irrelevant with respect to any sensible approximation of true ground states in the larger samples. For example, this method becomes irrelevant as a means to determine stiffness exponents $\theta$ in $d>2$, as mentioned by the authors, where the problem is not only NP-hard but requires the subtraction of two almost equal ground-state energies and systemic errors in each of $\approx 1\%$ found here are unacceptable. This larger picture on the method arises from a straightforward finite-size corrections study over the spin glass ensembles the authors employ, using data that has been available for decades.


著者 Stefan Boettcher
発行日 2023-09-14 13:29:40+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス, Google

カテゴリー: cond-mat.dis-nn, cond-mat.stat-mech, cs.AI, cs.LG パーマリンク