OKAMI: Teaching Humanoid Robots Manipulation Skills through Single Video Imitation

要約

私たちは、単一のビデオデモンストレーションを模倣して人型ロボットの操作スキルを教える問題を研究します。
単一のRGB-Dビデオから操作計画を生成し、実行ポリシーを導出する手法OKAMIを紹介します。
私たちのアプローチの中心となるのは、オブジェクト認識リターゲティングです。これにより、ヒューマノイド ロボットは、展開中にさまざまなオブジェクトの位置に合わせて調整しながら、RGB-D ビデオ内の人間の動きを模倣することができます。
OKAMI は、オープンワールドのビジョン モデルを使用して、タスクに関連するオブジェクトを特定し、体の動きと手のポーズを個別に再ターゲットします。
私たちの実験では、OKAMI がさまざまな視覚的および空間的条件にわたって強力な一般化を達成し、観察によるオープンワールドの模倣に関する最先端のベースラインを上回るパフォーマンスを示していることが示されています。
さらに、OKAMI のロールアウト軌跡は閉ループ視覚運動ポリシーのトレーニングに活用されており、労働集約的な遠隔操作を必要とせずに平均 79.2% の成功率を達成します。
その他のビデオは、当社の Web サイト https://ut-austin-rpl.github.io/OKAMI/ でご覧いただけます。

要約(オリジナル)

We study the problem of teaching humanoid robots manipulation skills by imitating from single video demonstrations. We introduce OKAMI, a method that generates a manipulation plan from a single RGB-D video and derives a policy for execution. At the heart of our approach is object-aware retargeting, which enables the humanoid robot to mimic the human motions in an RGB-D video while adjusting to different object locations during deployment. OKAMI uses open-world vision models to identify task-relevant objects and retarget the body motions and hand poses separately. Our experiments show that OKAMI achieves strong generalizations across varying visual and spatial conditions, outperforming the state-of-the-art baseline on open-world imitation from observation. Furthermore, OKAMI rollout trajectories are leveraged to train closed-loop visuomotor policies, which achieve an average success rate of 79.2% without the need for labor-intensive teleoperation. More videos can be found on our website https://ut-austin-rpl.github.io/OKAMI/.

arxiv情報

著者 Jinhan Li,Yifeng Zhu,Yuqi Xie,Zhenyu Jiang,Mingyo Seo,Georgios Pavlakos,Yuke Zhu
発行日 2024-10-15 17:17:54+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG, cs.RO パーマリンク