Should We Learn Contact-Rich Manipulation Policies from Sampling-Based Planners?

要約

ロボット操作における行動クローニング(BC)の途方もない成功は、主にヒトの遠隔操作を通じてデモンストレーションを効果的に収集できるタスクに限定されてきました。
ただし、複数の連絡先の複雑な調整を必要とする接触豊富な操作タスクのデモンストレーションは、現在のテレオ操作インターフェイスの制限のために収集することが困難です。
モデルベースの計画と最適化を活用して、連絡先が豊富な器用な操作タスクのトレーニングデータを生成する方法を調査します。
私たちの分析により、人気のあるサンプリングベースのプランナーは、ランダムツリー(RRT)を迅速に探索するのが好きで、モーションプランニングに効率的であることが、好ましくないエントロピーを備えたデモンストレーションを生成します。
これにより、ソリューションの多様性を維持しながら、デモンストレーションの一貫性を優先するデータ生成パイプラインの変更が動機付けられます。
拡散ベースのゴールコンディショニングBCアプローチと組み合わせて、当社の方法により、効果的なポリシー学習とハードウェアへのゼロショット転送は、2つの挑戦的な接触豊富な操作タスクを実現します。

要約(オリジナル)

The tremendous success of behavior cloning (BC) in robotic manipulation has been largely confined to tasks where demonstrations can be effectively collected through human teleoperation. However, demonstrations for contact-rich manipulation tasks that require complex coordination of multiple contacts are difficult to collect due to the limitations of current teleoperation interfaces. We investigate how to leverage model-based planning and optimization to generate training data for contact-rich dexterous manipulation tasks. Our analysis reveals that popular sampling-based planners like rapidly exploring random tree (RRT), while efficient for motion planning, produce demonstrations with unfavorably high entropy. This motivates modifications to our data generation pipeline that prioritizes demonstration consistency while maintaining solution diversity. Combined with a diffusion-based goal-conditioned BC approach, our method enables effective policy learning and zero-shot transfer to hardware for two challenging contact-rich manipulation tasks.

arxiv情報

著者 Huaijiang Zhu,Tong Zhao,Xinpei Ni,Jiuguang Wang,Kuan Fang,Ludovic Righetti,Tao Pang
発行日 2025-04-23 17:54:20+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO パーマリンク