要約
ロボットが複雑な現実世界のタスクを実行できるようにするには、ツールの使用が重要であり、人間のツール使用データを活用することは、ロボットを教えるために役立つ可能性があります。
ただし、テレオ操作などの既存のデータ収集方法は遅く、遅延を制御する傾向があり、動的タスクには適していません。
対照的に、人間がツールを使用してタスクを直接実行する人間の自然データは、効率的で簡単に収集しやすい自然で非構造化されていない相互作用を提供します。
人間とロボットが同じツールを共有できるという洞察に基づいて、人間のデータからロボットにツール使用の知識を転送するフレームワークを提案します。
2つのRGBカメラを使用して、私たちの方法は3D再構成を生成し、新しいビューの増強にガウスのスプラッティングを適用し、セグメンテーションモデルを使用して具体化された観測観測を抽出し、タスク空間ツールアクション表現を活用して視覚運動ポリシーを訓練します。
ミートボールのスクープ、パンフリッピング、ワインボトルバランス、その他の複雑なタスクなど、多様な現実世界のタスクに関するアプローチを検証します。
私たちの方法では、テレオ操作データで訓練された拡散ポリシーと比較して71 \%高い平均成功率を達成し、データ収集時間を77%削減し、一部のタスクはフレームワークでのみ解決可能です。
ハンドヘルドグリッパーと比較して、この方法ではデータ収集時間を41 \%削減します。
さらに、この方法は、具体化のギャップを橋渡しし、カメラの視点とロボット構成の変動に対する堅牢性を向上させ、オブジェクトと空間セットアップ全体で効果的に一般化します。
要約(オリジナル)
Tool use is critical for enabling robots to perform complex real-world tasks, and leveraging human tool-use data can be instrumental for teaching robots. However, existing data collection methods like teleoperation are slow, prone to control delays, and unsuitable for dynamic tasks. In contrast, human natural data, where humans directly perform tasks with tools, offers natural, unstructured interactions that are both efficient and easy to collect. Building on the insight that humans and robots can share the same tools, we propose a framework to transfer tool-use knowledge from human data to robots. Using two RGB cameras, our method generates 3D reconstruction, applies Gaussian splatting for novel view augmentation, employs segmentation models to extract embodiment-agnostic observations, and leverages task-space tool-action representations to train visuomotor policies. We validate our approach on diverse real-world tasks, including meatball scooping, pan flipping, wine bottle balancing, and other complex tasks. Our method achieves a 71\% higher average success rate compared to diffusion policies trained with teleoperation data and reduces data collection time by 77\%, with some tasks solvable only by our framework. Compared to hand-held gripper, our method cuts data collection time by 41\%. Additionally, our method bridges the embodiment gap, improves robustness to variations in camera viewpoints and robot configurations, and generalizes effectively across objects and spatial setups.
arxiv情報
著者 | Haonan Chen,Cheng Zhu,Yunzhu Li,Katherine Driggs-Campbell |
発行日 | 2025-04-06 20:40:19+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google