Vision-based Manipulation from Single Human Video with Open-World Object Graphs

要約

私たちは、ロボットが人間のビデオから視覚ベースの操作スキルを学習できるようにするオブジェクト中心のアプローチを紹介します。
私たちは、オープンワールド設定で 1 つの人間のビデオからロボットの操作を模倣する問題を調査します。この場合、ロボットは 1 つのビデオ デモンストレーションから新しいオブジェクトの操作を学習する必要があります。
単一の RGB-D ビデオからオブジェクト中心の操作プランを抽出し、抽出されたプランを条件とするポリシーを導き出すことで、この問題に取り組むアルゴリズム ORION を紹介します。
私たちの方法では、ロボットが iPad などの日常的なモバイル デバイスでキャプチャされたビデオから学習し、さまざまな視覚的背景、カメラ アングル、空間レイアウト、新しいオブジェクト インスタンスを備えた展開環境にポリシーを一般化することができます。
私たちは、短地平線タスクと長期地平線タスクの両方でメソッドを体系的に評価し、オープンワールドで 1 人の人間のビデオから学習する際の ORION の有効性を実証しました。
ビデオはプロジェクト Web サイト https://ut-austin-rpl.github.io/ORION-release でご覧いただけます。

要約(オリジナル)

We present an object-centric approach to empower robots to learn vision-based manipulation skills from human videos. We investigate the problem of imitating robot manipulation from a single human video in the open-world setting, where a robot must learn to manipulate novel objects from one video demonstration. We introduce ORION, an algorithm that tackles the problem by extracting an object-centric manipulation plan from a single RGB-D video and deriving a policy that conditions on the extracted plan. Our method enables the robot to learn from videos captured by daily mobile devices such as an iPad and generalize the policies to deployment environments with varying visual backgrounds, camera angles, spatial layouts, and novel object instances. We systematically evaluate our method on both short-horizon and long-horizon tasks, demonstrating the efficacy of ORION in learning from a single human video in the open world. Videos can be found in the project website https://ut-austin-rpl.github.io/ORION-release.

arxiv情報

著者 Yifeng Zhu,Arisrei Lim,Peter Stone,Yuke Zhu
発行日 2024-05-30 17:56:54+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG, cs.RO パーマリンク