Human2Robot: Learning Robot Actions from Paired Human-Robot Videos

要約

人間のデモから知識を蒸留することは、ロボットが学び、行動するための有望な方法です。
既存の作業はしばしば人間とロボットの違いを見落とし、不十分な結果を生み出します。
この論文では、人間とロボットのペアがロボット学習に完全に整合することを調べます。
VRベースのテレポーテーションを活用して、2,600エピソードを持つサードパーソンデータセットであるH \&Rを紹介します。
拡散モデルの最近の成功に触発されて、Human2robotを紹介します。これは、ヒトからの学習を生成タスクとして定式化するエンドツーエンドの拡散フレームワークです。
Human2robotは、ヒューマンビデオの時間的ダイナミクスを完全に調査して、ロボットビデオを生成し、同時にアクションを予測します。
現実世界の設定で見られ、変更された、目に見えない8つのタスクの包括的な評価を通じて、Human2robotは高品質のロボットビデオを生成できるだけでなく、見られたタスクで優れており、目に見えないオブジェクト、背景、さらには新しいタスクにも優れていることを実証します。

要約(オリジナル)

Distilling knowledge from human demonstrations is a promising way for robots to learn and act. Existing work often overlooks the differences between humans and robots, producing unsatisfactory results. In this paper, we study how perfectly aligned human-robot pairs benefit robot learning. Capitalizing on VR-based teleportation, we introduce H\&R, a third-person dataset with 2,600 episodes, each of which captures the fine-grained correspondence between human hands and robot gripper. Inspired by the recent success of diffusion models, we introduce Human2Robot, an end-to-end diffusion framework that formulates learning from human demonstrates as a generative task. Human2Robot fully explores temporal dynamics in human videos to generate robot videos and predict actions at the same time. Through comprehensive evaluations of 8 seen, changed and unseen tasks in real-world settings, we demonstrate that Human2Robot can not only generate high-quality robot videos but also excel in seen tasks and generalize to unseen objects, backgrounds and even new tasks effortlessly.

arxiv情報

著者 Sicheng Xie,Haidong Cao,Zejia Weng,Zhen Xing,Shiwei Shen,Jiaqi Leng,Xipeng Qiu,Yanwei Fu,Zuxuan Wu,Yu-Gang Jiang
発行日 2025-02-23 14:29:28+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO パーマリンク