Plan-Guided Reinforcement Learning for Whole-Body Manipulation



模倣学習 (IL) や強化学習 (RL) などの学習ベースのアプローチは、分布内状態で動作する場合に堅牢であることが示されています。
具体的には、モデルフリーの RL では、退屈な報酬形成プロセスが必要です。
一方、IL 手法は、高度な遠隔操作手法を伴う人間によるデモンストレーションに依存しています。
この研究では、モデルベースの計画と強化学習の利点を組み合わせる計画誘導強化学習 (PGRL) フレームワークを提案します。
私たちの方法では、RL での探索をガイドするためにモデルベースのプランナーによって生成された計画に依存しているため、人間の監督は最小限で済みます。
その代わりに、RL はドメインのランダム化のおかげで、より堅牢なポリシーを導き出します。
このアプローチを、空気が満たされた腕カバーを備えた上半身ヒューマノイド ロボット Punyo の全身操作タスクでテストし、大きな箱を旋回させて持ち上げます。


Synthesizing complex whole-body manipulation behaviors has fundamental challenges due to the rapidly growing combinatorics inherent to contact interaction planning. While model-based methods have shown promising results in solving long-horizon manipulation tasks, they often work under strict assumptions, such as known model parameters, oracular observation of the environment state, and simplified dynamics, resulting in plans that cannot easily transfer to hardware. Learning-based approaches, such as imitation learning (IL) and reinforcement learning (RL), have been shown to be robust when operating over in-distribution states; however, they need heavy human supervision. Specifically, model-free RL requires a tedious reward-shaping process. IL methods, on the other hand, rely on human demonstrations that involve advanced teleoperation methods. In this work, we propose a plan-guided reinforcement learning (PGRL) framework to combine the advantages of model-based planning and reinforcement learning. Our method requires minimal human supervision because it relies on plans generated by model-based planners to guide the exploration in RL. In exchange, RL derives a more robust policy thanks to domain randomization. We test this approach on a whole-body manipulation task on Punyo, an upper-body humanoid robot with compliant, air-filled arm coverings, to pivot and lift a large box. Our preliminary results indicate that the proposed methodology is promising to address challenges that remain difficult for either model- or learning-based strategies alone.


著者 Mengchao Zhang,Jose Barreiros,Aykut Ozgun Onol
発行日 2023-10-18 18:57:42+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス, Google

カテゴリー: cs.RO パーマリンク