VinT-6D: A Large-Scale Object-in-hand Dataset from Vision, Touch and Proprioception


具体的には、ロボット操作を強化するために、視覚、触覚、固有受容を統合した初の広範なマルチモーダル データセットである VinT-6D を導入します。
VinT-6D は、200 万の VinT-Sim と 100 万の VinT-Real の分割で構成されており、MuJoCo と Blender およびカスタム設計の現実世界のプラットフォームでのシミュレーションを通じて収集されます。
私たちの知る限り、VinT-Real は現実世界の環境での収集の困難さを考慮した最大のものであり、以前の作品と比較してシミュレーションと現実のギャップを埋めることができます。
VinT-6D に基づいて構築された、マルチモーダル情報を融合することによるパフォーマンスの大幅な向上を示すベンチマーク手法を紹介します。
プロジェクトは で入手できます。


This paper addresses the scarcity of large-scale datasets for accurate object-in-hand pose estimation, which is crucial for robotic in-hand manipulation within the “Perception-Planning-Control’ paradigm. Specifically, we introduce VinT-6D, the first extensive multi-modal dataset integrating vision, touch, and proprioception, to enhance robotic manipulation. VinT-6D comprises 2 million VinT-Sim and 0.1 million VinT-Real splits, collected via simulations in MuJoCo and Blender and a custom-designed real-world platform. This dataset is tailored for robotic hands, offering models with whole-hand tactile perception and high-quality, well-aligned data. To the best of our knowledge, the VinT-Real is the largest considering the collection difficulties in the real-world environment so that it can bridge the gap of simulation to real compared to the previous works. Built upon VinT-6D, we present a benchmark method that shows significant improvements in performance by fusing multi-modal information. The project is available at


著者 Zhaoliang Wan,Yonggen Ling,Senlin Yi,Lu Qi,Wangwei Lee,Minglei Lu,Sicheng Yang,Xiao Teng,Peng Lu,Xu Yang,Ming-Hsuan Yang,Hui Cheng
発行日 2025-01-06 16:04:53+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス, Google

カテゴリー: cs.RO パーマリンク