要約
このペーパーでは、単一のハイパーパラメータ設定を使用して環境間で RL アルゴリズムを比較し、ハイパーパラメータに影響されないアルゴリズム開発を促進する、新しい経験的方法論であるクロス環境ハイパーパラメータ設定ベンチマークを紹介します。
このベンチマークは統計的ノイズに対して堅牢であり、サンプルをほとんど使用しない場合でも、繰り返し適用しても定性的に同様の結果が得られることを実証します。
この堅牢性により、ベンチマークの適用が計算的に安価になり、低コストで統計的に健全な洞察が得られます。
6 つの小規模な制御環境のセット (SC-CHS) と 28 の環境からなる DM 制御スイート全体 (DMC-CHS) での CHS のインスタンス化の 2 つの例を示します。
最後に、困難な環境における最新の RL アルゴリズムへの CHS の適用可能性を説明するために、連続制御の文献における未解決の問題についての新しい実証研究を実施します。
DMC-CHS の DDPG アルゴリズムを使用した探索では、オーンシュタイン・ウーレンベック ノイズと無相関ガウス ノイズとの間にパフォーマンスに有意な差がないことを高い自信を持って示します。
要約(オリジナル)
This paper introduces a new empirical methodology, the Cross-environment Hyperparameter Setting Benchmark, that compares RL algorithms across environments using a single hyperparameter setting, encouraging algorithmic development which is insensitive to hyperparameters. We demonstrate that this benchmark is robust to statistical noise and obtains qualitatively similar results across repeated applications, even when using few samples. This robustness makes the benchmark computationally cheap to apply, allowing statistically sound insights at low cost. We demonstrate two example instantiations of the CHS, on a set of six small control environments (SC-CHS) and on the entire DM Control suite of 28 environments (DMC-CHS). Finally, to illustrate the applicability of the CHS to modern RL algorithms on challenging environments, we conduct a novel empirical study of an open question in the continuous control literature. We show, with high confidence, that there is no meaningful difference in performance between Ornstein-Uhlenbeck noise and uncorrelated Gaussian noise for exploration with the DDPG algorithm on the DMC-CHS.
arxiv情報
著者 | Andrew Patterson,Samuel Neumann,Raksha Kumaraswamy,Martha White,Adam White |
発行日 | 2024-07-26 16:04:40+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google