Learning to Do or Learning While Doing: Reinforcement Learning and Bayesian Optimisation for Online Continuous Tuning

要約

現実世界のプラントのオンライン調整は複雑な最適化問題であり、経験豊富な人間のオペレーターによる手動介入が引き続き必要です。
自律調整は急速に拡大している研究分野であり、強化学習で訓練された最適化 (RLO) やベイズ最適化 (BO) などの学習ベースの手法が、プラントの優れたパフォーマンスを達成し、調整時間を短縮する上で大きな期待を集めています。
ただし、さまざまなシナリオでどのアルゴリズムを選択するかは未解決の問題のままです。
ここでは、例として実際の粒子加速器でのルーチンタスクを使用した比較研究を紹介します。これは、RLO が一般に BO よりも優れたパフォーマンスを発揮しますが、必ずしも最良の選択であるわけではないことを示しています。
研究結果に基づいて、特定のチューニング タスクのアルゴリズムの選択をガイドするための明確な基準を提供します。
これらにより、現実世界の複雑なプラントの運用に対する学習ベースの自律調整ソリューションの導入が容易になり、最終的にはこれらの施設の可用性が向上し、操作性の限界が押し広げられ、それによって科学および工学の進歩が可能になります。

要約(オリジナル)

Online tuning of real-world plants is a complex optimisation problem that continues to require manual intervention by experienced human operators. Autonomous tuning is a rapidly expanding field of research, where learning-based methods, such as Reinforcement Learning-trained Optimisation (RLO) and Bayesian optimisation (BO), hold great promise for achieving outstanding plant performance and reducing tuning times. Which algorithm to choose in different scenarios, however, remains an open question. Here we present a comparative study using a routine task in a real particle accelerator as an example, showing that RLO generally outperforms BO, but is not always the best choice. Based on the study’s results, we provide a clear set of criteria to guide the choice of algorithm for a given tuning task. These can ease the adoption of learning-based autonomous tuning solutions to the operation of complex real-world plants, ultimately improving the availability and pushing the limits of operability of these facilities, thereby enabling scientific and engineering advancements.

arxiv情報

著者 Jan Kaiser,Chenran Xu,Annika Eichler,Andrea Santamaria Garcia,Oliver Stein,Erik Bründermann,Willi Kuropka,Hannes Dinter,Frank Mayet,Thomas Vinatier,Florian Burkart,Holger Schlarb
発行日 2023-06-06 14:56:47+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, physics.acc-ph パーマリンク