VinT-6D: A Large-Scale Object-in-hand Dataset from Vision, Touch and Proprioception

要約

この論文は、「知覚-計画-制御」パラダイムにおけるロボットによる手に持った操作にとって重要である、手に持った物体の正確な姿勢推定のための大規模なデータセットが不足していることに対処します。
具体的には、ロボット操作を強化するために、視覚、触覚、固有受容を統合した初の広範なマルチモーダル データセットである VinT-6D を導入します。
VinT-6D は、200 万の VinT-Sim と 100 万の VinT-Real の分割で構成されており、MuJoCo と Blender およびカスタム設計の現実世界のプラットフォームでのシミュレーションを通じて収集されます。
このデータセットはロボットハンド向けに調整されており、手全体の触覚認識と高品質で適切に調整されたデータを備えたモデルを提供します。
私たちの知る限り、VinT-Real は現実世界の環境での収集の困難さを考慮した最大のものであり、以前の作品と比較してシミュレーションと現実のギャップを埋めることができます。
VinT-6D に基づいて構築された、マルチモーダル情報を融合することによるパフォーマンスの大幅な向上を示すベンチマーク手法を紹介します。
プロジェクトは https://VinT-6D.github.io/ で入手できます。

要約(オリジナル)

This paper addresses the scarcity of large-scale datasets for accurate object-in-hand pose estimation, which is crucial for robotic in-hand manipulation within the “Perception-Planning-Control’ paradigm. Specifically, we introduce VinT-6D, the first extensive multi-modal dataset integrating vision, touch, and proprioception, to enhance robotic manipulation. VinT-6D comprises 2 million VinT-Sim and 0.1 million VinT-Real splits, collected via simulations in MuJoCo and Blender and a custom-designed real-world platform. This dataset is tailored for robotic hands, offering models with whole-hand tactile perception and high-quality, well-aligned data. To the best of our knowledge, the VinT-Real is the largest considering the collection difficulties in the real-world environment so that it can bridge the gap of simulation to real compared to the previous works. Built upon VinT-6D, we present a benchmark method that shows significant improvements in performance by fusing multi-modal information. The project is available at https://VinT-6D.github.io/.

arxiv情報

著者 Zhaoliang Wan,Yonggen Ling,Senlin Yi,Lu Qi,Wangwei Lee,Minglei Lu,Sicheng Yang,Xiao Teng,Peng Lu,Xu Yang,Ming-Hsuan Yang,Hui Cheng
発行日 2025-01-06 16:04:53+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO パーマリンク