Latent Action Diffusion for Cross-Embodiment Manipulation

要約

エンドツーエンドの学習アプローチは、ロボット操作の大きな可能性を提供しますが、それらの影響は、さまざまな実施形態にわたるデータの希少性と不均一性によって制約されます。
特に、異なるエンドエフェクターにわたる多様なアクションスペースは、拡大した学習とスキル移転の障壁を生み出します。
この課題には、多様なエンドエフェクターアクションを統合する潜在的なアクション空間で学んだ拡散ポリシーを通じて対処します。
まず、擬人化されたロボットの手、人間の手、および対照的な損失で訓練されたエンコーダーを使用した平行顎グリッパーのための意味的に整列した潜在的なアクション空間を学ぶことができることを示します。
第二に、提案された潜在的なアクションスペースを使用して、異なるエンドエフェクターからの操作データを共同訓練するために、マルチロボット制御のために単一のポリシーを利用して、最大13%の操作成功率を改善することができることを示しています。
潜在的な交差体ポリシーを使用した私たちのアプローチは、実施形態全体で異なるアクション空間を統一するための新しい方法を提示し、ロボットセットアップ全体で効率的なマルチロボット制御とデータ共有を可能にします。
この統一された表現は、新しいロボットの形態ごとに広範なデータ収集の必要性を大幅に削減し、実施形態全体で一般化を加速し、最終的によりスケーラブルで効率的なロボット学習を促進します。

要約(オリジナル)

End-to-end learning approaches offer great potential for robotic manipulation, but their impact is constrained by data scarcity and heterogeneity across different embodiments. In particular, diverse action spaces across different end-effectors create barriers for cross-embodiment learning and skill transfer. We address this challenge through diffusion policies learned in a latent action space that unifies diverse end-effector actions. We first show that we can learn a semantically aligned latent action space for anthropomorphic robotic hands, a human hand, and a parallel jaw gripper using encoders trained with a contrastive loss. Second, we show that by using our proposed latent action space for co-training on manipulation data from different end-effectors, we can utilize a single policy for multi-robot control and obtain up to 13% improved manipulation success rates, indicating successful skill transfer despite a significant embodiment gap. Our approach using latent cross-embodiment policies presents a new method to unify different action spaces across embodiments, enabling efficient multi-robot control and data sharing across robot setups. This unified representation significantly reduces the need for extensive data collection for each new robot morphology, accelerates generalization across embodiments, and ultimately facilitates more scalable and efficient robotic learning.

arxiv情報

著者 Erik Bauer,Elvis Nava,Robert K. Katzschmann
発行日 2025-06-17 15:08:44+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO パーマリンク