要約
普及モデルは、ロボットの軌道計画に大きな可能性を秘めていることが実証されています。
ただし、高レベルの命令から一貫した軌道を生成することは、特に複数の連続スキルを必要とする長距離の構成タスクの場合、依然として困難です。
私たちは、この問題に対処するために、解釈可能なスキル学習と条件付き普及計画を統合するエンドツーエンドの階層型計画フレームワークである SkillDiffuser を提案します。
より高いレベルでは、スキル抽象化モジュールは、視覚的観察と言語指示から、人間が理解できる離散的なスキル表現を学習します。
これらの学習されたスキルの埋め込みは、スキルに合わせてカスタマイズされた潜在的な軌道を生成するために拡散モデルを調整するために使用されます。
これにより、学習可能なスキルに準拠した多様な状態軌道を生成できます。
SkillDiffuser は、スキル学習と条件付き軌道生成を統合することにより、さまざまなタスクにわたって抽象的な指示に従って一貫した動作を生成します。
Meta-World や LOReL などのマルチタスクのロボット操作ベンチマークの実験では、SkillDiffuser による最先端のパフォーマンスと人間が解釈可能なスキル表現を実証しています。
さらに多くの視覚化結果と情報は、当社の Web サイトでご覧いただけます。
要約(オリジナル)
Diffusion models have demonstrated strong potential for robotic trajectory planning. However, generating coherent trajectories from high-level instructions remains challenging, especially for long-range composition tasks requiring multiple sequential skills. We propose SkillDiffuser, an end-to-end hierarchical planning framework integrating interpretable skill learning with conditional diffusion planning to address this problem. At the higher level, the skill abstraction module learns discrete, human-understandable skill representations from visual observations and language instructions. These learned skill embeddings are then used to condition the diffusion model to generate customized latent trajectories aligned with the skills. This allows generating diverse state trajectories that adhere to the learnable skills. By integrating skill learning with conditional trajectory generation, SkillDiffuser produces coherent behavior following abstract instructions across diverse tasks. Experiments on multi-task robotic manipulation benchmarks like Meta-World and LOReL demonstrate state-of-the-art performance and human-interpretable skill representations from SkillDiffuser. More visualization results and information could be found on our website.
arxiv情報
著者 | Zhixuan Liang,Yao Mu,Hengbo Ma,Masayoshi Tomizuka,Mingyu Ding,Ping Luo |
発行日 | 2024-03-13 16:29:50+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google