要約
本論文では、Blackbox法、特にEvolution戦略(ES)を強化学習(RL)問題に適用し、中間的なウェイポイント/サブゴールが利用可能な場合の探索の改善を試みる。進化戦略は高度に並列化可能であるため、スカラー累積報酬を抽出する代わりに、ロールアウト/評価中に得られた軌跡から状態とアクションのペアを用いて、エージェントのダイナミクスを学習する。学習されたダイナミクスは、最適化手順で使用され、学習を高速化する。最後に、CarlaドライビングシミュレータとUR5ロボットアームシミュレータで行った実験の結果を示すことで、提案アプローチがいかに普遍的に適用可能であるかを示す。
要約(オリジナル)
In this paper, we try to improve exploration in Blackbox methods, particularly Evolution strategies (ES), when applied to Reinforcement Learning (RL) problems where intermediate waypoints/subgoals are available. Since Evolutionary strategies are highly parallelizable, instead of extracting just a scalar cumulative reward, we use the state-action pairs from the trajectories obtained during rollouts/evaluations, to learn the dynamics of the agent. The learnt dynamics are then used in the optimization procedure to speed-up training. Lastly, we show how our proposed approach is universally applicable by presenting results from experiments conducted on Carla driving and UR5 robotic arm simulators.
arxiv情報
著者 | Kiran Lekkala,Laurent Itti |
発行日 | 2023-07-03 06:09:53+00:00 |
arxivサイト | arxiv_id(pdf) |