AutoRL Hyperparameter Landscapes

要約

強化学習 (RL) は優れた結果を生み出すことができることが示されていますが、そのハイパーパラメータがパフォーマンスに及ぼす影響により、その使用は制限されています。
これにより、実際に良い結果を達成することが困難になることがよくあります。
自動化された RL (AutoRL) はこの問題に対処しますが、最適な構成を求めてハイパーパラメーター最適化 (HPO) メソッドが横断するハイパーパラメーター ランドスケープのダイナミクスについてはほとんど知られていません。
ハイパーパラメータ構成を動的に調整する既存の AutoRL アプローチを考慮して、これらのハイパーパラメータ ランドスケープを 1 つの時点だけでなく、トレーニング全体の複数の時点で構築および分析するアプローチを提案します。
このような動的な AutoRL アプローチの正当性に関する重要な未解決の問題に対処し、さまざまな種類の環境 (Cartpole、Bipedal) における RL 文献の代表的なアルゴリズム (DQN、PPO、および SAC) 間でハイパーパラメータの状況が時間の経過とともに大きく変化するという徹底的な経験的証拠を提供します。
Walker、Hopper) これは、トレーニング中にハイパーパラメーターを動的に調整する必要があるという理論を裏付けており、ランドスケープ分析を通じて AutoRL の問題についてさらに多くの洞察が得られる可能性を示しています。
私たちのコードは https://github.com/automl/AutoRL-Landscape にあります。

要約(オリジナル)

Although Reinforcement Learning (RL) has shown to be capable of producing impressive results, its use is limited by the impact of its hyperparameters on performance. This often makes it difficult to achieve good results in practice. Automated RL (AutoRL) addresses this difficulty, yet little is known about the dynamics of the hyperparameter landscapes that hyperparameter optimization (HPO) methods traverse in search of optimal configurations. In view of existing AutoRL approaches dynamically adjusting hyperparameter configurations, we propose an approach to build and analyze these hyperparameter landscapes not just for one point in time but at multiple points in time throughout training. Addressing an important open question on the legitimacy of such dynamic AutoRL approaches, we provide thorough empirical evidence that the hyperparameter landscapes strongly vary over time across representative algorithms from RL literature (DQN, PPO, and SAC) in different kinds of environments (Cartpole, Bipedal Walker, and Hopper) This supports the theory that hyperparameters should be dynamically adjusted during training and shows the potential for more insights on AutoRL problems that can be gained through landscape analyses. Our code can be found at https://github.com/automl/AutoRL-Landscape

arxiv情報

著者 Aditya Mohan,Carolin Benjamins,Konrad Wienecke,Alexander Dockhorn,Marius Lindauer
発行日 2023-05-17 12:13:11+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, cs.RO, cs.SY, eess.SY パーマリンク