D-Cubed: Latent Diffusion Trajectory Optimisation for Dexterous Deformable Manipulation

要約

現実世界のアプリケーションにおける平行グリッパーの限界を克服するには、変形可能な物体の器用なロボット操作を習得することが不可欠です。
現在の軌道最適化アプローチでは、探索空間が広く、コスト関数から得られるタスク情報が限られているため、このようなタスクを解決するのに苦労することがよくあります。
この研究では、タスクに依存しない遊びデータセットから訓練された潜在拡散モデル (LDM) を使用して、器用な変形可能なオブジェクト操作タスクを解決する新しい軌道最適化手法である D-Cubed を提案します。
D-Cubed は、VAE を使用してプレイ データセット内の短地平アクションをエンコードするスキル潜在空間を学習し、LDM をトレーニングしてスキル潜在をスキル軌道に構成し、データセット内の長期アクション軌道を表します。
ターゲット タスクの軌道を最適化するために、逆拡散プロセス内でクロス エントロピー法を採用した新しい勾配のないガイド付きサンプリング法を導入します。
特に、D-Cubed は、探索のために LDM を使用して少数のノイズのあるスキル軌跡をサンプリングし、シミュレーションで軌跡を評価します。
そして、D-Cubed は後続の逆処理のコストが最も低い軌道を選択します。
これにより、有望なソリューション領域が効果的に探索され、逆拡散プロセス全体を通じてターゲット タスクに向けてサンプリングされた軌道が最適化されます。
器用な変形可能なオブジェクト操作タスクの公開ベンチマークでの経験的評価を通じて、D-Cubed が従来の軌道最適化や競合ベースラインのアプローチよりも大幅に優れていることを実証しました。
さらに、D-Cubed によって検出された軌道が、折りたたみタスクで現実世界の LEAP ハンドに容易に伝達されることを示します。

要約(オリジナル)

Mastering dexterous robotic manipulation of deformable objects is vital for overcoming the limitations of parallel grippers in real-world applications. Current trajectory optimisation approaches often struggle to solve such tasks due to the large search space and the limited task information available from a cost function. In this work, we propose D-Cubed, a novel trajectory optimisation method using a latent diffusion model (LDM) trained from a task-agnostic play dataset to solve dexterous deformable object manipulation tasks. D-Cubed learns a skill-latent space that encodes short-horizon actions in the play dataset using a VAE and trains a LDM to compose the skill latents into a skill trajectory, representing a long-horizon action trajectory in the dataset. To optimise a trajectory for a target task, we introduce a novel gradient-free guided sampling method that employs the Cross-Entropy method within the reverse diffusion process. In particular, D-Cubed samples a small number of noisy skill trajectories using the LDM for exploration and evaluates the trajectories in simulation. Then, D-Cubed selects the trajectory with the lowest cost for the subsequent reverse process. This effectively explores promising solution areas and optimises the sampled trajectories towards a target task throughout the reverse diffusion process. Through empirical evaluation on a public benchmark of dexterous deformable object manipulation tasks, we demonstrate that D-Cubed outperforms traditional trajectory optimisation and competitive baseline approaches by a significant margin. We further demonstrate that trajectories found by D-Cubed readily transfer to a real-world LEAP hand on a folding task.

arxiv情報

著者 Jun Yamada,Shaohong Zhong,Jack Collins,Ingmar Posner
発行日 2024-03-19 16:05:51+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, cs.RO パーマリンク