要約
多くの深層強化学習(D-RL)アルゴリズムは、連続制御領域でよく使われる加法性作用ノイズのような単純な形の探索に依存しています。一般的に、このアクションノイズのスケーリングファクターはハイパーパラメーターとして選択され、トレーニング中は一定に保たれる。本論文では、連続制御のためのオフポリシー深層強化学習におけるアクションノイズに着目する。ノイズの種類、ノイズのスケール、インパクトスケーリングファクター削減スケジュールによって、学習されたポリシーがどのような影響を受けるかを分析する。我々は、ガウシアンノイズとオーンスタイン・ユーレンベックノイズという2つの最も著名なタイプのアクションノイズを考慮し、ノイズタイプとスケールパラメータを系統的に変化させ、ポリシーの期待収益や探索中の状態空間被覆率といった興味のある変数を測定することによって、膨大な実験キャンペーンを実施する。後者については、従来提案されている測定法よりも、状態空間境界に近い点による推定アーチファクトに頑健な、新しい状態空間被覆測定法$operatorname{X}_{mathcal{U}_text{rel}}$を提案する。一般に、ノイズのスケールを大きくすると、状態空間のカバー率が高くなる。しかし、より大きなノイズスケールを用いて空間被覆率を高めることは、多くの場合、有益ではないことがわかった。逆に、学習過程でノイズスケールを小さくすることで、分散が減少し、一般に学習性能が向上する。我々は、最適なノイズの種類とスケールは環境に依存すると結論づけ、我々の観察に基づき、さらなる最適化の出発点として行動ノイズの選択を導くための発見的ルールを導き出す。
要約(オリジナル)
Many Deep Reinforcement Learning (D-RL) algorithms rely on simple forms of exploration such as the additive action noise often used in continuous control domains. Typically, the scaling factor of this action noise is chosen as a hyper-parameter and is kept constant during training. In this paper, we focus on action noise in off-policy deep reinforcement learning for continuous control. We analyze how the learned policy is impacted by the noise type, noise scale, and impact scaling factor reduction schedule. We consider the two most prominent types of action noise, Gaussian and Ornstein-Uhlenbeck noise, and perform a vast experimental campaign by systematically varying the noise type and scale parameter, and by measuring variables of interest like the expected return of the policy and the state-space coverage during exploration. For the latter, we propose a novel state-space coverage measure $\operatorname{X}_{\mathcal{U}\text{rel}}$ that is more robust to estimation artifacts caused by points close to the state-space boundary than previously-proposed measures. Larger noise scales generally increase state-space coverage. However, we found that increasing the space coverage using a larger noise scale is often not beneficial. On the contrary, reducing the noise scale over the training process reduces the variance and generally improves the learning performance. We conclude that the best noise type and scale are environment dependent, and based on our observations derive heuristic rules for guiding the choice of the action noise as a starting point for further optimization.
arxiv情報
| 著者 | Jakob Hollenstein,Sayantan Auddy,Matteo Saveriano,Erwan Renaudo,Justus Piater |
| 発行日 | 2023-06-05 16:21:56+00:00 |
| arxivサイト | arxiv_id(pdf) |