要約
本論文では、「知覚-計画-制御」パラダイムにおけるロボットの手先操作に重要な、手先の物体の正確な姿勢を推定するための大規模データセットの不足を解決する。具体的には、VinT-6Dを紹介する。VinT-6Dは、視覚、触覚、固有感覚を統合した初の大規模マルチモーダルデータセットであり、ロボット操作を向上させる。VinT-6Dは、MuJoCoとBlenderによるシミュレーションと、カスタム設計された実世界プラットフォームによって収集された、200万個のVinT-Simと0.1百万個のVinT-Realから構成される。このデータセットはロボットハンド用に調整されており、全手触覚知覚と高品質で整列されたデータを持つモデルを提供します。我々の知る限り、VinT-Realは実世界環境での収集の難しさを考慮した最大のものであり、シミュレーションと実世界のギャップを埋めることができる。VinT-6Dをベースに、マルチモーダル情報を融合することで性能の大幅な向上を示すベンチマーク手法を提示する。このプロジェクトはhttps://VinT-6D.github.io/。
要約(オリジナル)
This paper addresses the scarcity of large-scale datasets for accurate object-in-hand pose estimation, which is crucial for robotic in-hand manipulation within the “Perception-Planning-Control’ paradigm. Specifically, we introduce VinT-6D, the first extensive multi-modal dataset integrating vision, touch, and proprioception, to enhance robotic manipulation. VinT-6D comprises 2 million VinT-Sim and 0.1 million VinT-Real splits, collected via simulations in MuJoCo and Blender and a custom-designed real-world platform. This dataset is tailored for robotic hands, offering models with whole-hand tactile perception and high-quality, well-aligned data. To the best of our knowledge, the VinT-Real is the largest considering the collection difficulties in the real-world environment so that it can bridge the gap of simulation to real compared to the previous works. Built upon VinT-6D, we present a benchmark method that shows significant improvements in performance by fusing multi-modal information. The project is available at https://VinT-6D.github.io/.
arxiv情報
著者 | Zhaoliang Wan,Yonggen Ling,Senlin Yi,Lu Qi,Wangwei Lee,Minglei Lu,Sicheng Yang,Xiao Teng,Peng Lu,Xu Yang,Ming-Hsuan Yang,Hui Cheng |
発行日 | 2024-12-31 15:45:09+00:00 |
arxivサイト | arxiv_id(pdf) |