Multi-task Manipulation Policy Modeling with Visuomotor Latent Diffusion

要約

一般化された視覚運動ポリシーをモデル化することは、コンピューター ビジョンとロボット工学の両方のコミュニティにとって長年の課題でした。
既存のアプローチでは、多くの場合、データセット間のリソースを効率的に活用できなかったり、大量の計算リソースを必要とする重いビジョン言語モデルに依存したりするため、マルチタスクのパフォーマンスやアプリケーションの可能性が制限されます。
この論文では、操作スキルの潜在モデリングと効率的な視覚運動潜在拡散ポリシーを効果的に利用する新しいパラダイムを紹介します。これにより、既存の実施形態間および環境間データセットの利用が強化され、それによってマルチタスク能力が向上します。
私たちの方法論は、アクション モデリングとポリシー モデリングの 2 つの分離されたフェーズで構成されます。
まず、統合されたアクションスキルモデリングのために、タスクに依存せず、実施形態を認識した軌道潜在オートエンコーダーを導入します。
このステップでは、アクション データと観察が凝縮された潜在空間に凝縮され、大規模なクロス データセットのメリットが効果的に得られます。
第二に、タスクを効果的に実行するために、ノイズから潜在的なターゲットスキルを回復する視覚運動潜在拡散政策を使用することを提案します。
私たちは広く使用されている 2 つのベンチマークで広範な実験を実施し、その結果はマルチタスクと事前トレーニングにおける私たちが提案するパラダイムの有効性を実証しました。
コードは https://github.com/AlbertTan404/RoLD で入手できます。

要約(オリジナル)

Modeling a generalized visuomotor policy has been a longstanding challenge for both computer vision and robotics communities. Existing approaches often fail to efficiently leverage cross-dataset resources or rely on heavy Vision-Language models, which require substantial computational resources, thereby limiting their multi-task performance and application potential. In this paper, we introduce a novel paradigm that effectively utilizes latent modeling of manipulation skills and an efficient visuomotor latent diffusion policy, which enhances the utilizing of existing cross-embodiment and cross-environment datasets, thereby improving multi-task capabilities. Our methodology consists of two decoupled phases: action modeling and policy modeling. Firstly, we introduce a task-agnostic, embodiment-aware trajectory latent autoencoder for unified action skills modeling. This step condenses action data and observation into a condensed latent space, effectively benefiting from large-scale cross-datasets. Secondly, we propose to use a visuomotor latent diffusion policy that recovers target skill latent from noises for effective task execution. We conducted extensive experiments on two widely used benchmarks, and the results demonstrate the effectiveness of our proposed paradigms on multi-tasking and pre-training. Code is available at https://github.com/AlbertTan404/RoLD.

arxiv情報

著者 Wenhui Tan,Bei Liu,Junbo Zhang,Ruihua Song,Jianlong Fu
発行日 2024-03-12 04:49:59+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO パーマリンク