Plan-Guided Reinforcement Learning for Whole-Body Manipulation

要約

複雑な全身操作動作の合成には、接触インタラクション計画に固有の組み合わせ論が急速に成長しているため、根本的な課題があります。
モデルベースの手法は、長期にわたる操作タスクの解決において有望な結果を示していますが、多くの場合、既知のモデルパラメータ、環境状態の神聖な観察、単純化されたダイナミクスなどの厳密な仮定の下で動作するため、ハードウェアに簡単に移行できない計画が生成されます。

模倣学習 (IL) や強化学習 (RL) などの学習ベースのアプローチは、分布内状態で動作する場合に堅牢であることが示されています。
ただし、人間による厳重な管理が必要です。
具体的には、モデルフリーの RL では、退屈な報酬形成プロセスが必要です。
一方、IL 手法は、高度な遠隔操作手法を伴う人間によるデモンストレーションに依存しています。
この研究では、モデルベースの計画と強化学習の利点を組み合わせる計画誘導強化学習 (PGRL) フレームワークを提案します。
私たちの方法では、RL での探索をガイドするためにモデルベースのプランナーによって生成された計画に依存しているため、人間の監督は最小限で済みます。
その代わりに、RL はドメインのランダム化のおかげで、より堅牢なポリシーを導き出します。
このアプローチを、空気が満たされた腕カバーを備えた上半身ヒューマノイド ロボット Punyo の全身操作タスクでテストし、大きな箱を旋回させて持ち上げます。
私たちの予備的な結果は、提案された方法論が、モデルベースまたは学習ベースの戦略のいずれか単独では依然として困難な課題に対処することが期待できることを示しています。

要約(オリジナル)

Synthesizing complex whole-body manipulation behaviors has fundamental challenges due to the rapidly growing combinatorics inherent to contact interaction planning. While model-based methods have shown promising results in solving long-horizon manipulation tasks, they often work under strict assumptions, such as known model parameters, oracular observation of the environment state, and simplified dynamics, resulting in plans that cannot easily transfer to hardware. Learning-based approaches, such as imitation learning (IL) and reinforcement learning (RL), have been shown to be robust when operating over in-distribution states; however, they need heavy human supervision. Specifically, model-free RL requires a tedious reward-shaping process. IL methods, on the other hand, rely on human demonstrations that involve advanced teleoperation methods. In this work, we propose a plan-guided reinforcement learning (PGRL) framework to combine the advantages of model-based planning and reinforcement learning. Our method requires minimal human supervision because it relies on plans generated by model-based planners to guide the exploration in RL. In exchange, RL derives a more robust policy thanks to domain randomization. We test this approach on a whole-body manipulation task on Punyo, an upper-body humanoid robot with compliant, air-filled arm coverings, to pivot and lift a large box. Our preliminary results indicate that the proposed methodology is promising to address challenges that remain difficult for either model- or learning-based strategies alone.

arxiv情報

著者 Mengchao Zhang,Jose Barreiros,Aykut Ozgun Onol
発行日 2023-10-18 18:57:42+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO パーマリンク