Genetic multi-armed bandits: a reinforcement learning approach for discrete optimization via simulation

要約

この論文では、GMAB と呼ばれる新しいアルゴリズムを提案します。このアルゴリズムは、多腕バンディットの強化学習ドメインの概念と遺伝的アルゴリズムのドメインのランダム検索戦略を組み合わせて、シミュレーションを介して離散確率最適化問題を解決します。
特に、ノイズの多い大規模問題に焦点が当てられており、多くの場合、多数の次元と複数の局所最適値が関係しています。
私たちの目的は、不安定なシミュレーション観測に対処する多腕バンディットの特性と、膨大な数の実行可能な解を伴う高次元の解空間を処理する遺伝的アルゴリズムの能力を組み合わせることです。
この目的のために、多腕バンディット フレームワークが基盤として機能し、観測された各シミュレーションが GMAB のメモリに組み込まれます。
この記憶に基づいて、遺伝的演算子は探索と搾取のための強力なツールを提供するため、検索を導きます。
実験結果は、GMAB がさまざまなテスト問題で文献のベンチマーク アルゴリズムと比較して優れたパフォーマンスを達成することを示しています。
すべての実験で、GMAB は、既存の方法で生成されたものと同様または (はるかに) 優れたソリューションを達成するために必要なシミュレーションが大幅に少なくなりました。
同時に、必要なランタイムに関する GMAB のオーバーヘッドは、推奨されるメモリのツリーベースの実装により非常に小さくなります。
さらに、シミュレーションの努力が無限大になるにつれて、グローバルオプティマのセットへの収束を証明します。

要約(オリジナル)

This paper proposes a new algorithm, referred to as GMAB, that combines concepts from the reinforcement learning domain of multi-armed bandits and random search strategies from the domain of genetic algorithms to solve discrete stochastic optimization problems via simulation. In particular, the focus is on noisy large-scale problems, which often involve a multitude of dimensions as well as multiple local optima. Our aim is to combine the property of multi-armed bandits to cope with volatile simulation observations with the ability of genetic algorithms to handle high-dimensional solution spaces accompanied by an enormous number of feasible solutions. For this purpose, a multi-armed bandit framework serves as a foundation, where each observed simulation is incorporated into the memory of GMAB. Based on this memory, genetic operators guide the search, as they provide powerful tools for exploration as well as exploitation. The empirical results demonstrate that GMAB achieves superior performance compared to benchmark algorithms from the literature in a large variety of test problems. In all experiments, GMAB required considerably fewer simulations to achieve similar or (far) better solutions than those generated by existing methods. At the same time, GMAB’s overhead with regard to the required runtime is extremely small due to the suggested tree-based implementation of its memory. Furthermore, we prove its convergence to the set of global optima as the simulation effort goes to infinity.

arxiv情報

著者 Deniz Preil,Michael Krapp
発行日 2023-02-15 14:46:19+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, cs.NE, econ.GN, math.OC, q-fin.EC パーマリンク