Hand-Object Interaction Pretraining from Videos

要約

我々は、3Dハンドオブジェクトインタラクション軌道から一般的なロボット操作の事前分布を学習するアプローチを提案します。
私たちは、現場のビデオを使用して感覚運動ロボットの軌道を生成するフレームワークを構築します。
これを行うには、共有 3D 空間内で人間の手と操作対象の両方を持ち上げ、人間の動きをロボットの動作に再ターゲットします。
このデータに基づく生成モデリングにより、タスクに依存しない基本ポリシーが得られます。
このポリシーは、一般的でありながら柔軟な事前操作をキャプチャします。
我々は、強化学習 (RL) と動作クローニング (BC) の両方を使用してこのポリシーを微調整すると、下流タスクへのサンプル効率的な適応が可能になり、同時に従来のアプローチと比較して堅牢性と一般化性が向上することを経験的に示しています。
定性的実験は \url{https://hgaurav2k.github.io/hop/} で利用できます。

要約(オリジナル)

We present an approach to learn general robot manipulation priors from 3D hand-object interaction trajectories. We build a framework to use in-the-wild videos to generate sensorimotor robot trajectories. We do so by lifting both the human hand and the manipulated object in a shared 3D space and retargeting human motions to robot actions. Generative modeling on this data gives us a task-agnostic base policy. This policy captures a general yet flexible manipulation prior. We empirically demonstrate that finetuning this policy, with both reinforcement learning (RL) and behavior cloning (BC), enables sample-efficient adaptation to downstream tasks and simultaneously improves robustness and generalizability compared to prior approaches. Qualitative experiments are available at: \url{https://hgaurav2k.github.io/hop/}.

arxiv情報

著者 Himanshu Gaurav Singh,Antonio Loquercio,Carmelo Sferrazza,Jane Wu,Haozhi Qi,Pieter Abbeel,Jitendra Malik
発行日 2024-09-12 17:59:07+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.RO パーマリンク