要約
プロンプトとしての人間のデモンストレーションは、ロボットをプログラムして長老型操作タスクを実行する強力な方法です。
ただし、これらのデモンストレーションをロボットに実行可能なアクションに変換することは、動きのスタイルと物理的能力の実行の不一致により、重要な課題をもたらします。
既存の方法は、人間のロボットペアのデータに依存します。これは、スケーリングするのが不可能であるか、実際に壊れることが多いフレームレベルの視覚的類似性に大きく依存しています。
これらの課題に対処するために、最適な輸送コストを使用して人間とロボットのタスク実行を自動的に整列させる新しいフレームワークであるRhymeを提案します。
長老のロボットのデモンストレーションを考えると、ライムは、短いホリゾンのヒューマンクリップを取得および構成することにより、意味的に同等の人間ビデオを統合します。
このアプローチは、ペアのデータを必要とせずに効果的なポリシートレーニングを容易にします。
ライムは、シミュレーションと実際の人間の手で、さまざまな交差体のデモ装置を正常に模倣し、以前の方法と比較してタスクの成功を50%以上増加させました。
https://portal-cornell.github.io/rhyme/でコードとデータセットをリリースします。
要約(オリジナル)
Human demonstrations as prompts are a powerful way to program robots to do long-horizon manipulation tasks. However, translating these demonstrations into robot-executable actions presents significant challenges due to execution mismatches in movement styles and physical capabilities. Existing methods either depend on human-robot paired data, which is infeasible to scale, or rely heavily on frame-level visual similarities that often break down in practice. To address these challenges, we propose RHyME, a novel framework that automatically aligns human and robot task executions using optimal transport costs. Given long-horizon robot demonstrations, RHyME synthesizes semantically equivalent human videos by retrieving and composing short-horizon human clips. This approach facilitates effective policy training without the need for paired data. RHyME successfully imitates a range of cross-embodiment demonstrators, both in simulation and with a real human hand, achieving over 50\% increase in task success compared to previous methods. We release our code and datasets at https://portal-cornell.github.io/rhyme/.
arxiv情報
著者 | Kushal Kedia,Prithwish Dan,Angela Chao,Maximus Adrian Pace,Sanjiban Choudhury |
発行日 | 2025-03-05 16:07:20+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google