Make a Donut: Language-Guided Hierarchical EMD-Space Planning for Zero-shot Deformable Object Manipulation

要約

変形可能な物体の操作は、ロボット工学において最も魅力的でありながらも手ごわい課題の 1 つです。
これまでの技術は主に、通常は粒子または画像として表されるデモンストレーションを通じて潜在的なダイナミクスを学習することに依存していましたが、適切な制限が存在します。特に長期的なタスクの場合、適切なデモンストレーションを取得するのが難しい場合があります。
さらに、学習のみをデモンストレーションに基づいて行うと、デモンストレーションされたタスクを超えてモデルを一般化する能力が妨げられる可能性があります。
この研究では、トレーニングを必要とせずに、長期にわたる複雑なタスクに取り組むことができる、デモンストレーション不要の階層計画アプローチを紹介します。
私たちは大規模言語モデル (LLM) を採用して、指定されたタスクに対応する高レベルの段階ごとの計画を明確にします。
LLM は、個々のステージごとに、中間のサブゴール点群を作成するためのツール名と Python コードの両方を提供します。
特定の段階で自由に使えるツールとサブ目標を使用して、詳細な閉ループ モデルの予測制御戦略を提示します。
これは、アース ムーバー距離 (EMD) 空間でのポイントツーポイント対応 (DiffPhysics-P2P) 損失を備えた微分可能物理学を活用し、反復的に適用されます。
実験結果は、私たちの技術が短期と長期の両方の範囲で生地操作の複数のベンチマークを上回っていることを裏付けています。
注目すべきことに、私たちのモデルは、事前のデモンストレーションなしで、これまでに経験したことのない新規の複雑なタスクに対する堅牢な一般化機能を実証しています。
私たちは、現実世界のロボット プラットフォームでの実験的トライアルによって、このアプローチをさらに実証します。

要約(オリジナル)

Deformable object manipulation stands as one of the most captivating yet formidable challenges in robotics. While previous techniques have predominantly relied on learning latent dynamics through demonstrations, typically represented as either particles or images, there exists a pertinent limitation: acquiring suitable demonstrations, especially for long-horizon tasks, can be elusive. Moreover, basing learning entirely on demonstrations can hamper the model’s ability to generalize beyond the demonstrated tasks. In this work, we introduce a demonstration-free hierarchical planning approach capable of tackling intricate long-horizon tasks without necessitating any training. We employ large language models (LLMs) to articulate a high-level, stage-by-stage plan corresponding to a specified task. For every individual stage, the LLM provides both the tool’s name and the Python code to craft intermediate subgoal point clouds. With the tool and subgoal for a particular stage at our disposal, we present a granular closed-loop model predictive control strategy. This leverages Differentiable Physics with Point-to-Point correspondence (DiffPhysics-P2P) loss in the earth mover distance (EMD) space, applied iteratively. Experimental findings affirm that our technique surpasses multiple benchmarks in dough manipulation, spanning both short and long horizons. Remarkably, our model demonstrates robust generalization capabilities to novel and previously unencountered complex tasks without any preliminary demonstrations. We further substantiate our approach with experimental trials on real-world robotic platforms.

arxiv情報

著者 Yang You,Bokui Shen,Congyue Deng,Haoran Geng,He Wang,Leonidas Guibas
発行日 2023-11-05 22:43:29+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.RO パーマリンク