要約
ロボットで人間レベルの器用さを達成することは、ロボット操作の分野で重要な目的です。
3Dベースの模倣学習における最近の進歩により、有望な結果が示されており、この目標を達成するための効果的な経路を提供しています。
ただし、高品質の3D表現を取得すると、2つの重要な問題が示されます。(1)単一ビューカメラによってキャプチャされるポイントクラウドの品質は、カメラの解像度、位置決め、および器用な手によって引き起こされる閉塞などの要因によって大きく影響を受けます。
(2)グローバルポイントクラウドには、きちんとした器用な操作タスクに必要な重要な連絡先情報と空間的対応がありません。
これらの制限を排除するために、オブジェクトとロボット固有受容の堅牢な6Dポーズ推定を活用することにより、対応を構築および学習する新しいフレームワークであるCordVIPを提案します。
具体的には、最初にオブジェクトとハンドの間に対応を確立する相互作用対応ポイントクラウドを導入します。
これらのポイントクラウドは、トレーニング前のポリシーに使用されます。このポリシーでは、オブジェクト中心のコンタクトマップとハンドアーム調整情報も組み込まれ、空間的ダイナミクスと時間的ダイナミクスの両方を効果的にキャプチャします。
私たちの方法は、4つの現実世界のタスクで平均成功率が90 \%で、他のベースラインを大きなマージンで超えた例外的な器用な操作機能を示しています。
実験結果は、異なるオブジェクト、視点、シナリオに対するCordVIPの優れた一般化と堅牢性も強調しています。
コードとビデオは、https://aurleleopku.github.io/cordvipで入手できます。
要約(オリジナル)
Achieving human-level dexterity in robots is a key objective in the field of robotic manipulation. Recent advancements in 3D-based imitation learning have shown promising results, providing an effective pathway to achieve this goal. However, obtaining high-quality 3D representations presents two key problems: (1) the quality of point clouds captured by a single-view camera is significantly affected by factors such as camera resolution, positioning, and occlusions caused by the dexterous hand; (2) the global point clouds lack crucial contact information and spatial correspondences, which are necessary for fine-grained dexterous manipulation tasks. To eliminate these limitations, we propose CordViP, a novel framework that constructs and learns correspondences by leveraging the robust 6D pose estimation of objects and robot proprioception. Specifically, we first introduce the interaction-aware point clouds, which establish correspondences between the object and the hand. These point clouds are then used for our pre-training policy, where we also incorporate object-centric contact maps and hand-arm coordination information, effectively capturing both spatial and temporal dynamics. Our method demonstrates exceptional dexterous manipulation capabilities with an average success rate of 90\% in four real-world tasks, surpassing other baselines by a large margin. Experimental results also highlight the superior generalization and robustness of CordViP to different objects, viewpoints, and scenarios. Code and videos are available on https://aureleopku.github.io/CordViP.
arxiv情報
著者 | Yankai Fu,Qiuxuan Feng,Ning Chen,Zichen Zhou,Mengzhen Liu,Mingdong Wu,Tianxing Chen,Shanyu Rong,Jiaming Liu,Hao Dong,Shanghang Zhang |
発行日 | 2025-02-12 14:41:14+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google