要約
将来のロボットは、さまざまな家庭用タスクを実行できる多目的システムとして想定されています。
大きな疑問が残っています。物理的なロボット学習を最小限に抑えながら、具体化のギャップをどのように埋めることができますか。
内部の人間のビデオから学ぶことは、膨大な量の関連データがすでにインターネットに存在するため、ロボット操作タスクの有望なソリューションを提供すると主張しています。
この作業では、野生の単眼RGBのみの人間ビデオから学習した3Dアフォーダンスを使用して、ゼロショットロボット操作を可能にするフレームワークであるVidbotを提示します。
Vidbotはパイプラインを活用して、それらから明示的な表現、すなわちビデオからの3Dハンド軌跡を抽出し、深さの基礎モデルと構造から運動技術を組み合わせて、時間的に一貫したメトリックスケール3Dアフォーダンス表現を再構築します。
最初にピクセル空間から粗いアクションを識別し、次に拡散モデルで粗い相互作用の軌跡を生成し、粗いアクションを条件付け、コンテキスト対応の相互作用計画のテスト時間制約によって導かれ、新しいシーンと態度の実質的な一般化を可能にします。
広範な実験は、VIDBOTの有効性を示しています。これは、ゼロショット設定で13の操作タスクにわたってカウンターパートを大幅に上回り、実際の環境でロボットシステム全体にシームレスに展開できます。
Vidbotは、毎日の人間のビデオを活用して、ロボット学習をよりスケーラブルにするための道を開きます。
要約(オリジナル)
Future robots are envisioned as versatile systems capable of performing a variety of household tasks. The big question remains, how can we bridge the embodiment gap while minimizing physical robot learning, which fundamentally does not scale well. We argue that learning from in-the-wild human videos offers a promising solution for robotic manipulation tasks, as vast amounts of relevant data already exist on the internet. In this work, we present VidBot, a framework enabling zero-shot robotic manipulation using learned 3D affordance from in-the-wild monocular RGB-only human videos. VidBot leverages a pipeline to extract explicit representations from them, namely 3D hand trajectories from videos, combining a depth foundation model with structure-from-motion techniques to reconstruct temporally consistent, metric-scale 3D affordance representations agnostic to embodiments. We introduce a coarse-to-fine affordance learning model that first identifies coarse actions from the pixel space and then generates fine-grained interaction trajectories with a diffusion model, conditioned on coarse actions and guided by test-time constraints for context-aware interaction planning, enabling substantial generalization to novel scenes and embodiments. Extensive experiments demonstrate the efficacy of VidBot, which significantly outperforms counterparts across 13 manipulation tasks in zero-shot settings and can be seamlessly deployed across robot systems in real-world environments. VidBot paves the way for leveraging everyday human videos to make robot learning more scalable.
arxiv情報
著者 | Hanzhi Chen,Boyang Sun,Anran Zhang,Marc Pollefeys,Stefan Leutenegger |
発行日 | 2025-03-10 10:04:58+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google