One-Shot Imitation under Mismatched Execution

要約

プロンプトとして人間がデモンストレーションすることは、長期的な操作タスクを実行するようにロボットをプログラムする強力な方法です。
ただし、これらのデモンストレーションをロボットが実行可能なアクションに変換するには、動作スタイルと身体能力の実行の不一致により、大きな課題が生じます。
既存の方法は、拡張が不可能な人間とロボットのペアのデータに依存しているか、フレームレベルの視覚的な類似性に大きく依存しているため、実際には機能しないことがよくあります。
これらの課題に対処するために、私たちは、最適な輸送コストを使用して人間とロボットのタスク実行を自動的に調整する新しいフレームワークである RHyME を提案します。
長い水平線のロボットのデモンストレーションを考慮して、RHyME は短い水平線の人間のクリップを取得して合成することで、意味的に同等の人間のビデオを合成します。
このアプローチにより、ペアのデータを必要とせずに効果的なポリシーのトレーニングが容易になります。
RHyME は、シミュレーションと実際の人間の手の両方で、さまざまな実施形態にまたがるデモンストレーターを模倣することに成功し、以前の方法と比較してタスクの成功率が 50% 以上増加しました。
データセットとグラフィックスは、https://portal.cs.cornell.edu/rhyme/ でリリースされています。

要約(オリジナル)

Human demonstrations as prompts are a powerful way to program robots to do long-horizon manipulation tasks. However, translating these demonstrations into robot-executable actions presents significant challenges due to execution mismatches in movement styles and physical capabilities. Existing methods either depend on human-robot paired data, which is infeasible to scale, or rely heavily on frame-level visual similarities that often break down in practice. To address these challenges, we propose RHyME, a novel framework that automatically aligns human and robot task executions using optimal transport costs. Given long-horizon robot demonstrations, RHyME synthesizes semantically equivalent human videos by retrieving and composing short-horizon human clips. This approach facilitates effective policy training without the need for paired data. RHyME successfully imitates a range of cross-embodiment demonstrators, both in simulation and with a real human hand, achieving over 50\% increase in task success compared to previous methods. We release our datasets and graphics at this https://portal.cs.cornell.edu/rhyme/.

arxiv情報

著者 Kushal Kedia,Prithwish Dan,Angela Chao,Maximus Adrian Pace,Sanjiban Choudhury
発行日 2024-10-16 02:19:05+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, cs.RO パーマリンク