要約
我々は、運動プリミティブに基づく計画政策(MP3)と呼ばれる新しい深層強化学習(RL)アプローチを導入する。MP3は、ムーブメントプリミティブ(MP)を深層RLの枠組みに統合することで、疎で非マルコフの報酬から効果的に学習しながら、学習プロセス全体を通して滑らかな軌道の生成を可能にする。さらにMP3は、実行中の環境の変化に適応する能力を維持する。ロボットRLにおける初期の成功の多くは、RLとMPを組み合わせることによって達成されてきたが、これらのアプローチは、多くの場合、単一のストロークベースの動作の学習に限定されており、タスクの変化に適応したり、実行中に動作を調整したりする能力を欠いている。本論文では、異なるタスクバリエーションにMPパラメータを非線形に適応させるためのエピソードベースのRL手法を導入した先行研究を基に、リプランニング戦略を取り入れることでアプローチを拡張する。これにより、フィードバックを必要とする確率的領域におけるオンライン動作適応の欠如に対処し、動作実行全体を通してMPパラメータの適応を可能にする。本アプローチを最新のディープRLやMPを用いたRLと比較した。その結果、洗練された疎な報酬設定や、再計画を必要とする領域において、性能が向上することが示された。
要約(オリジナル)
We introduce a novel deep reinforcement learning (RL) approach called Movement Primitive-based Planning Policy (MP3). By integrating movement primitives (MPs) into the deep RL framework, MP3 enables the generation of smooth trajectories throughout the whole learning process while effectively learning from sparse and non-Markovian rewards. Additionally, MP3 maintains the capability to adapt to changes in the environment during execution. Although many early successes in robot RL have been achieved by combining RL with MPs, these approaches are often limited to learning single stroke-based motions, lacking the ability to adapt to task variations or adjust motions during execution. Building upon our previous work, which introduced an episode-based RL method for the non-linear adaptation of MP parameters to different task variations, this paper extends the approach to incorporating replanning strategies. This allows adaptation of the MP parameters throughout motion execution, addressing the lack of online motion adaptation in stochastic domains requiring feedback. We compared our approach against state-of-the-art deep RL and RL with MPs methods. The results demonstrated improved performance in sophisticated, sparse reward settings and in domains requiring replanning.
arxiv情報
著者 | Fabian Otto,Hongyi Zhou,Onur Celik,Ge Li,Rudolf Lioutikov,Gerhard Neumann |
発行日 | 2023-07-02 20:00:50+00:00 |
arxivサイト | arxiv_id(pdf) |