Planning-Guided Diffusion Policy Learning for Generalizable Contact-Rich Bimanual Manipulation


接触リッチな両手操作は、戦略的に選択された接触や動作によって物体の状態を変化させるために、2本の腕を正確に協調させることを含む。このようなタスクは本質的に複雑であるため、十分な実証データを取得し、未知のシナリオに汎化するポリシーを学習することは、依然として未解決の課題である。本研究では、接触によるプランニングの最近の進歩に基づき、高忠実度の物理シミュレーションで実証データを生成するためにモデルベースのモーションプランナを活用することで、接触が豊富な両手操作タスクを解くことを効果的に学習するアプローチであるGLIDE(Generalizable Planning-Guided Diffusion Policy Learning)を紹介する。本アプローチでは、ランダム化環境における効率的なプランニングにより、多様な物体や変形を含むタスクに対して、大規模かつ高品質な合成運動軌道を生成する。次に、これらのデモンストレーションを用いて、動作クローニングによりタスク条件付き拡散ポリシーを学習する。シミュレーションとリアルのギャップに対処するため、特徴抽出、タスク表現、行動予測、データ補強における一連の本質的な設計オプションを提案し、滑らかな行動シーケンスのロバストな予測学習と未知のシナリオへの汎化を可能にする。シミュレーションと実世界の両方での実験を通して、我々のアプローチが、多様な形状、寸法、物理的特性を持つ物体を効果的に操作する両手ロボットシステムを可能にすることを実証する。ウェブサイト:


Contact-rich bimanual manipulation involves precise coordination of two arms to change object states through strategically selected contacts and motions. Due to the inherent complexity of these tasks, acquiring sufficient demonstration data and training policies that generalize to unseen scenarios remain a largely unresolved challenge. Building on recent advances in planning through contacts, we introduce Generalizable Planning-Guided Diffusion Policy Learning (GLIDE), an approach that effectively learns to solve contact-rich bimanual manipulation tasks by leveraging model-based motion planners to generate demonstration data in high-fidelity physics simulation. Through efficient planning in randomized environments, our approach generates large-scale and high-quality synthetic motion trajectories for tasks involving diverse objects and transformations. We then train a task-conditioned diffusion policy via behavior cloning using these demonstrations. To tackle the sim-to-real gap, we propose a set of essential design options in feature extraction, task representation, action prediction, and data augmentation that enable learning robust prediction of smooth action sequences and generalization to unseen scenarios. Through experiments in both simulation and the real world, we demonstrate that our approach can enable a bimanual robotic system to effectively manipulate objects of diverse geometries, dimensions, and physical properties. Website:


著者 Xuanlin Li,Tong Zhao,Xinghao Zhu,Jiuguang Wang,Tao Pang,Kuan Fang
発行日 2024-12-03 18:51:39+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス, DeepL

カテゴリー: cs.CV, cs.LG, cs.RO パーマリンク