MP3: Movement Primitive-Based (Re-)Planning Policy

要約

我々は、Movement Primitive-based Planning Policy (MP3) と呼ばれる新しい深層強化学習 (RL) アプローチを導入します。
MP3 は、動きプリミティブ (MP) をディープ RL フレームワークに統合することにより、まばらな非マルコフ報酬から効果的に学習しながら、学習プロセス全体を通じて滑らかな軌道の生成を可能にします。
さらに、MP3 は実行中の環境の変化に適応する機能を維持します。
ロボット RL の初期の成功の多くは、RL と MP を組み合わせることで達成されていますが、これらのアプローチは多くの場合、シングル ストローク ベースの動作の学習に限定されており、タスクの変化に適応したり、実行中に動作を調整したりする機能が欠けています。
この論文は、さまざまなタスクのバリエーションに対する MP パラメータの非線形適応のためのエピソードベースの RL 手法を導入した以前の研究を基礎として、再計画戦略を組み込むアプローチを拡張します。
これにより、モーション実行全体を通じて MP ​​パラメータを適応させることができ、フィードバックを必要とする確率的領域におけるオンライン モーション適応の欠如に対処します。
私たちは、最先端のディープ RL および MP を使用した RL 手法とアプローチを比較しました。
その結果、洗練されたまばらな報酬設定や再計画が必要なドメインにおいてパフォーマンスが向上することが実証されました。

要約(オリジナル)

We introduce a novel deep reinforcement learning (RL) approach called Movement Prmitive-based Planning Policy (MP3). By integrating movement primitives (MPs) into the deep RL framework, MP3 enables the generation of smooth trajectories throughout the whole learning process while effectively learning from sparse and non-Markovian rewards. Additionally, MP3 maintains the capability to adapt to changes in the environment during execution. Although many early successes in robot RL have been achieved by combining RL with MPs, these approaches are often limited to learning single stroke-based motions, lacking the ability to adapt to task variations or adjust motions during execution. Building upon our previous work, which introduced an episode-based RL method for the non-linear adaptation of MP parameters to different task variations, this paper extends the approach to incorporating replanning strategies. This allows adaptation of the MP parameters throughout motion execution, addressing the lack of online motion adaptation in stochastic domains requiring feedback. We compared our approach against state-of-the-art deep RL and RL with MPs methods. The results demonstrated improved performance in sophisticated, sparse reward settings and in domains requiring replanning.

arxiv情報

著者 Fabian Otto,Hongyi Zhou,Onur Celik,Ge Li,Rudolf Lioutikov,Gerhard Neumann
発行日 2023-06-22 08:11:32+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, cs.RO パーマリンク