Should We Learn Contact-Rich Manipulation Policies from Sampling-Based Planners?

要約

ロボット操作における行動クローニング (BC) の大きな成功は、主に人間の遠隔操作を通じてデモンストレーションを効果的に収集できるタスクに限定されています。
ただし、複数の接触者の複雑な調整を必要とする接触が多い操作タスクのデモンストレーションは、現在の遠隔操作インターフェイスの制限により収集することが困難です。
私たちは、モデルベースの計画と最適化を活用して、接触の多い器用な操作タスクのトレーニング データを生成する方法を調査します。
私たちの分析により、一般的なサンプリング ベースのプランナーは、ランダム ツリー (RRT) を迅速に探索することを好みますが、モーション プランニングには効率的である一方で、不利に高いエントロピーを伴うデモンストレーションを生成することが明らかになりました。
これにより、ソリューションの多様性を維持しながらデモンストレーションの一貫性を優先するデータ生成パイプラインの変更が促進されます。
拡散ベースの目標条件付き BC アプローチと組み合わせることで、私たちの方法は、2 つの困難な接触の多い操作タスクに対して効果的なポリシー学習とハードウェアへのゼロショット転送を可能にします。

要約(オリジナル)

The tremendous success of behavior cloning (BC) in robotic manipulation has been largely confined to tasks where demonstrations can be effectively collected through human teleoperation. However, demonstrations for contact-rich manipulation tasks that require complex coordination of multiple contacts are difficult to collect due to the limitations of current teleoperation interfaces. We investigate how to leverage model-based planning and optimization to generate training data for contact-rich dexterous manipulation tasks. Our analysis reveals that popular sampling-based planners like rapidly exploring random tree (RRT), while efficient for motion planning, produce demonstrations with unfavorably high entropy. This motivates modifications to our data generation pipeline that prioritizes demonstration consistency while maintaining solution diversity. Combined with a diffusion-based goal-conditioned BC approach, our method enables effective policy learning and zero-shot transfer to hardware for two challenging contact-rich manipulation tasks.

arxiv情報

著者 Huaijiang Zhu,Tong Zhao,Xinpei Ni,Jiuguang Wang,Kuan Fang,Ludovic Righetti,Tao Pang
発行日 2024-12-12 22:19:27+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO パーマリンク