要約
プロンプトとして人間がデモンストレーションすることは、長期的な操作タスクを実行するようにロボットをプログラムする強力な方法です。
ただし、このようなデモンストレーションをロボットが実行可能なアクションに直接変換するには、動作スタイルや身体能力の違いなど、実行の不一致により大きな課題が生じます。
既存の方法は、拡張不可能なロボットとデモンストレーターのペアのデータに依存するか、フレームレベルの視覚的な類似性に過度に依存するため、維持できません。
これらの課題に対処するために、最適な輸送コストを使用してロボットとデモンストレーターの間のタスク実行対応関係を自動的に確立する新しいフレームワークである RHyME を提案します。
長距離ロボットのデモンストレーションを考慮すると、RHyME は同様の短地平人間のクリップを取得して合成することで、意味的に同等の人間のデモンストレーションを合成し、データのペアを必要とせずに効果的なポリシー トレーニングを促進します。
我々は、RHyMEが、あらゆる程度の不一致に関して、さまざまな実施形態間のデータセットにわたる一連のベースラインを上回るパフォーマンスを示すことを示します。
詳細な分析を通じて、さまざまな実施形態の視覚表現を学習および活用するための洞察を明らかにします。
要約(オリジナル)
Human demonstrations as prompts are a powerful way to program robots to do long-horizon manipulation tasks. However, directly translating such demonstrations into robot-executable actions poses significant challenges due to execution mismatches, such as different movement styles and physical capabilities. Existing methods either rely on robot-demonstrator paired data, which is infeasible to scale, or overly rely on frame-level visual similarities, which fail to hold. To address these challenges, we propose RHyME, a novel framework that automatically establishes task execution correspondences between the robot and the demonstrator by using optimal transport costs. Given long-horizon robot demonstrations, RHyME synthesizes semantically equivalent human demonstrations by retrieving and composing similar short-horizon human clips, facilitating effective policy training without the need for paired data. We show that RHyME outperforms a range of baselines across various cross-embodiment datasets on all degrees of mismatches. Through detailed analysis, we uncover insights for learning and leveraging cross-embodiment visual representations.
arxiv情報
著者 | Kushal Kedia,Prithwish Dan,Sanjiban Choudhury |
発行日 | 2024-09-10 16:11:57+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google