要約
人間の実演から知識を抽出することは、ロボットが学習し行動するための有望な方法である。既存の研究では、人間とロボットの違いを見落としていることが多く、満足のいく結果が得られていない。本論文では、完全に整列した人間とロボットのペアが、ロボットの学習にどのように役立つかを研究する。VRベースのテレポーテーションを利用し、人間の手とロボットのグリッパーの間の細かな対応関係をそれぞれ捉えた2600のエピソードからなる三人称データセットであるH&Rを導入する。近年の拡散モデルの成功に触発され、人間の実演からの学習を生成タスクとして定式化したエンドツーエンドの拡散フレームワークであるHuman2Robotを紹介する。Human2Robotは、人間の映像の時間的ダイナミクスを完全に探索し、ロボットの映像を生成すると同時に行動を予測する。実世界での4つの厳選されたタスクの包括的な評価を通じて、Human2Robotが高品質なロボットビデオを生成できるだけでなく、見たことのあるタスクや、異なる位置、見たことのない外観、新しいインスタンス、さらには新しい背景やタスクタイプへの汎化に優れていることを実証する。
要約(オリジナル)
Distilling knowledge from human demonstrations is a promising way for robots to learn and act. Existing work often overlooks the differences between humans and robots, producing unsatisfactory results. In this paper, we study how perfectly aligned human-robot pairs benefit robot learning. Capitalizing on VR-based teleportation, we introduce H\&R, a third-person dataset with 2,600 episodes, each of which captures the fine-grained correspondence between human hand and robot gripper. Inspired by the recent success of diffusion models, we introduce Human2Robot, an end-to-end diffusion framework that formulates learning from human demonstration as a generative task. Human2Robot fully explores temporal dynamics in human videos to generate robot videos and predict actions at the same time. Through comprehensive evaluations of 4 carefully selected tasks in real-world settings, we demonstrate that Human2Robot can not only generate high-quality robot videos but also excels in seen tasks and generalizing to different positions, unseen appearances, novel instances, and even new backgrounds and task types.
arxiv情報
著者 | Sicheng Xie,Haidong Cao,Zejia Weng,Zhen Xing,Shiwei Shen,Jiaqi Leng,Xipeng Qiu,Yanwei Fu,Zuxuan Wu,Yu-Gang Jiang |
発行日 | 2025-04-04 15:25:00+00:00 |
arxivサイト | arxiv_id(pdf) |