Make a Donut: Hierarchical EMD-Space Planning for Zero-Shot Deformable Manipulation with Tools

要約

変形可能な物体の操作は、ロボット工学における最も魅力的でありながら手ごわい課題の1つである。これまでの技術では、一般的に粒子や画像として表現されるデモンストレーションを通して潜在的なダイナミクスを学習することに主に頼ってきたが、適切なデモンストレーション、特に長いホライズンのタスクのためのデモンストレーションを獲得することは困難であるという適切な限界が存在する。さらに、完全にデモンストレーションに基づく学習は、モデルがデモンストレーションされたタスクを越えて汎化する能力を妨げる可能性がある。本研究では、実証を必要としない階層的計画手法を導入する。我々は大規模言語モデル(LLM)を用いて、指定されたタスクに対応する高レベルのステージ毎の計画を明確にする。個々のステージごとに、LLMはツールの名前と、中間サブゴールポイントクラウドを作成するためのPythonコードの両方を提供する。特定のステージのツールとサブゴールを自由に利用することで、きめ細かな閉ループモデル予測制御戦略を提示する。これは、地球移動距離(EMD)空間における微分可能物理学と点間対応(DiffPhysics-P2P)損失を活用し、反復的に適用される。実験結果は、我々の手法が、短期および長期にわたる生地操作において、複数のベンチマークを凌駕することを確認した。驚くべきことに、我々のモデルは、予備的な実証実験を行うことなく、これまでに遭遇したことのない新しい複雑なタスクに対して頑健な汎化能力を示す。さらに、実世界のロボットプラットフォームでの実験的試行により、我々のアプローチを実証する。私たちのプロジェクトページ: https://qq456cvb.github.io/projects/donut.

要約(オリジナル)

Deformable object manipulation stands as one of the most captivating yet formidable challenges in robotics. While previous techniques have predominantly relied on learning latent dynamics through demonstrations, typically represented as either particles or images, there exists a pertinent limitation: acquiring suitable demonstrations, especially for long-horizon tasks, can be elusive. Moreover, basing learning entirely on demonstrations can hamper the model’s ability to generalize beyond the demonstrated tasks. In this work, we introduce a demonstration-free hierarchical planning approach capable of tackling intricate long-horizon tasks without necessitating any training. We employ large language models (LLMs) to articulate a high-level, stage-by-stage plan corresponding to a specified task. For every individual stage, the LLM provides both the tool’s name and the Python code to craft intermediate subgoal point clouds. With the tool and subgoal for a particular stage at our disposal, we present a granular closed-loop model predictive control strategy. This leverages Differentiable Physics with Point-to-Point correspondence (DiffPhysics-P2P) loss in the earth mover distance (EMD) space, applied iteratively. Experimental findings affirm that our technique surpasses multiple benchmarks in dough manipulation, spanning both short and long horizons. Remarkably, our model demonstrates robust generalization capabilities to novel and previously unencountered complex tasks without any preliminary demonstrations. We further substantiate our approach with experimental trials on real-world robotic platforms. Our project page: https://qq456cvb.github.io/projects/donut.

arxiv情報

著者 Yang You,Bokui Shen,Congyue Deng,Haoran Geng,Songlin Wei,He Wang,Leonidas Guibas
発行日 2025-02-02 04:40:51+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.RO パーマリンク