要約
ロボットの装備操作スキルを教えるには、多くの場合、ウェアラブルまたはテレオ操作を使用して何百ものデモンストレーションを収集する必要があります。
人間とオブジェクトの相互作用のビデオは収集して拡大するのが簡単ですが、ビデオからの明示的なアクションラベルとロボットと人間の手の形態学的な違いがないため、ロボット学習に直接レバレッジすることは困難です。
Human2Sim2robotは、タスクを実証する人間の1つのRGB-Dビデオのみを使用して、器用な操作ポリシーをトレーニングするための新しいリアルからシムからリアルのフレームワークであることを提案します。
私たちの方法では、シミュレーションで補強学習(RL)を利用して、ウェアラブル、テレオ操作、または模倣学習方法に通常必要な大規模なデータ収集に依存することなく、人間のロボットの具体化ギャップを越えます。
デモンストレーションから、2つのタスク固有のコンポーネントを抽出します。(1)オブジェクト中心の実施形態と存在する報酬関数を定義するオブジェクトが軌道を配置し、(2)操作前のハンドがRLトレーニング中に探索を初期化およびガイドするためにポーズをとる。
これらの2つのコンポーネントは、目的のタスクを学習するのに非常に効果的であり、タスク固有の報酬の形成とチューニングの必要性を排除することがわかりました。
Human2Sim2robotは、オブジェクトを意識しているオープンループ軌道リプレイを55%上回り、把握、非緩和操作、およびマルチステップタスク全体で68%のデータ増強を使用した模倣学習を上回ることを実証します。
プロジェクトサイト:https://human2sim2robot.github.io
要約(オリジナル)
Teaching robots dexterous manipulation skills often requires collecting hundreds of demonstrations using wearables or teleoperation, a process that is challenging to scale. Videos of human-object interactions are easier to collect and scale, but leveraging them directly for robot learning is difficult due to the lack of explicit action labels from videos and morphological differences between robot and human hands. We propose Human2Sim2Robot, a novel real-to-sim-to-real framework for training dexterous manipulation policies using only one RGB-D video of a human demonstrating a task. Our method utilizes reinforcement learning (RL) in simulation to cross the human-robot embodiment gap without relying on wearables, teleoperation, or large-scale data collection typically necessary for imitation learning methods. From the demonstration, we extract two task-specific components: (1) the object pose trajectory to define an object-centric, embodiment-agnostic reward function, and (2) the pre-manipulation hand pose to initialize and guide exploration during RL training. We found that these two components are highly effective for learning the desired task, eliminating the need for task-specific reward shaping and tuning. We demonstrate that Human2Sim2Robot outperforms object-aware open-loop trajectory replay by 55% and imitation learning with data augmentation by 68% across grasping, non-prehensile manipulation, and multi-step tasks. Project Site: https://human2sim2robot.github.io
arxiv情報
著者 | Tyler Ga Wei Lum,Olivia Y. Lee,C. Karen Liu,Jeannette Bohg |
発行日 | 2025-04-17 03:15:20+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google