Robot See Robot Do: Imitating Articulated Object Manipulation with Monocular 4D Reconstruction

要約

人間は、他の物体を観察するだけで、新しい物体を操作する方法を学ぶことができます。
このようなデモンストレーションから学習する能力をロボットに提供すれば、新しい動作を指定する自然なインターフェイスが可能になります。
この研究では、単一の静的多視点オブジェクト スキャンを与えられた単一の単眼 RGB 人間デモンストレーションから多関節オブジェクトの操作を模倣する方法である Robot See Robot Do (RSRD) を開発します。
まず、微分可能なレンダリングを使用して単眼ビデオから 3D パーツの動きを復元する方法である 4D 微分可能パーツ モデル (4D-DPM) を提案します。
この合成による分析アプローチでは、反復最適化でパーツ中心の特徴フィールドを使用するため、幾何学的正則化機能を使用して 1 つのビデオのみから 3D モーションを復元できます。
この 4D 再構成を考慮すると、ロボットは、実証された物体部分の動きを誘発する両手腕の動きを計画することにより、物体の軌道を複製します。
RSRD は、デモンストレーションをパーツ中心の軌道として表現することで、手の動きを再現するのではなく、ロボット自身の形態的限界を考慮しながらデモンストレーションの意図した動作を再現することに重点を置いています。
グラウンド トゥルースの注釈付き 3D パーツ軌道に関する 4D-DPM の 3D トラッキング精度と、両手操作の YuMi ロボットでそれぞれ 10 回のトライアルにわたって 9 つのオブジェクトに対する RSRD の物理的な実行パフォーマンスを評価しました。
RSRD の各フェーズは平均 87% の成功率を達成し、90 回のトライアル全体でのエンドツーエンドの合計成功率は 60% になります。
特に、これは、タスク固有のトレーニング、微調整、データセット収集、またはアノテーションを一切行わずに、大規模な事前トレーニング済み視覚モデルから抽出された特徴フィールドのみを使用して実現されます。
プロジェクトページ:https://robot-see-robot-do.github.io

要約(オリジナル)

Humans can learn to manipulate new objects by simply watching others; providing robots with the ability to learn from such demonstrations would enable a natural interface specifying new behaviors. This work develops Robot See Robot Do (RSRD), a method for imitating articulated object manipulation from a single monocular RGB human demonstration given a single static multi-view object scan. We first propose 4D Differentiable Part Models (4D-DPM), a method for recovering 3D part motion from a monocular video with differentiable rendering. This analysis-by-synthesis approach uses part-centric feature fields in an iterative optimization which enables the use of geometric regularizers to recover 3D motions from only a single video. Given this 4D reconstruction, the robot replicates object trajectories by planning bimanual arm motions that induce the demonstrated object part motion. By representing demonstrations as part-centric trajectories, RSRD focuses on replicating the demonstration’s intended behavior while considering the robot’s own morphological limits, rather than attempting to reproduce the hand’s motion. We evaluate 4D-DPM’s 3D tracking accuracy on ground truth annotated 3D part trajectories and RSRD’s physical execution performance on 9 objects across 10 trials each on a bimanual YuMi robot. Each phase of RSRD achieves an average of 87% success rate, for a total end-to-end success rate of 60% across 90 trials. Notably, this is accomplished using only feature fields distilled from large pretrained vision models — without any task-specific training, fine-tuning, dataset collection, or annotation. Project page: https://robot-see-robot-do.github.io

arxiv情報

著者 Justin Kerr,Chung Min Kim,Mingxuan Wu,Brent Yi,Qianqian Wang,Ken Goldberg,Angjoo Kanazawa
発行日 2024-09-26 17:57:16+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.RO パーマリンク