Shaped Policy Search for Evolutionary Strategies using Waypoints

要約

本論文では、Blackbox法、特にEvolution戦略(ES)を強化学習(RL)問題に適用し、中間的なウェイポイント/サブゴールが利用可能な場合の探索の改善を試みる。進化戦略は高度に並列化可能であるため、スカラー累積報酬を抽出する代わりに、ロールアウト/評価中に得られた軌跡から状態とアクションのペアを用いて、エージェントのダイナミクスを学習する。学習されたダイナミクスは、最適化手順で使用され、学習を高速化する。最後に、CarlaドライビングシミュレータとUR5ロボットアームシミュレータで行った実験の結果を示すことで、提案アプローチがいかに普遍的に適用可能であるかを示す。

要約(オリジナル)

In this paper, we try to improve exploration in Blackbox methods, particularly Evolution strategies (ES), when applied to Reinforcement Learning (RL) problems where intermediate waypoints/subgoals are available. Since Evolutionary strategies are highly parallelizable, instead of extracting just a scalar cumulative reward, we use the state-action pairs from the trajectories obtained during rollouts/evaluations, to learn the dynamics of the agent. The learnt dynamics are then used in the optimization procedure to speed-up training. Lastly, we show how our proposed approach is universally applicable by presenting results from experiments conducted on Carla driving and UR5 robotic arm simulators.

arxiv情報

著者 Kiran Lekkala,Laurent Itti
発行日 2023-07-03 06:09:53+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.LG, cs.NE, cs.RO パーマリンク