One-Shot Imitation under Mismatched Execution


これらの課題に対処するために、最適な輸送コストを使用してロボットとデモンストレーターの間のタスク実行対応関係を自動的に確立する新しいフレームワークである RHyME を提案します。
長距離ロボットのデモンストレーションを考慮すると、RHyME は同様の短地平人間のクリップを取得して合成することで、意味的に同等の人間のデモンストレーションを合成し、データのペアを必要とせずに効果的なポリシー トレーニングを促進します。


Human demonstrations as prompts are a powerful way to program robots to do long-horizon manipulation tasks. However, directly translating such demonstrations into robot-executable actions poses significant challenges due to execution mismatches, such as different movement styles and physical capabilities. Existing methods either rely on robot-demonstrator paired data, which is infeasible to scale, or overly rely on frame-level visual similarities, which fail to hold. To address these challenges, we propose RHyME, a novel framework that automatically establishes task execution correspondences between the robot and the demonstrator by using optimal transport costs. Given long-horizon robot demonstrations, RHyME synthesizes semantically equivalent human demonstrations by retrieving and composing similar short-horizon human clips, facilitating effective policy training without the need for paired data. We show that RHyME outperforms a range of baselines across various cross-embodiment datasets on all degrees of mismatches. Through detailed analysis, we uncover insights for learning and leveraging cross-embodiment visual representations.


著者 Kushal Kedia,Prithwish Dan,Sanjiban Choudhury
発行日 2024-09-10 16:11:57+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス, Google

カテゴリー: cs.AI, cs.LG, cs.RO パーマリンク