要約
このホワイトペーパーでは、96のオブジェクトクラスを含む479の多様なタスクにわたって107kのデモンストレーション軌跡を含むデータセットであるRobomind(ロボット操作のためのマルチボジメントインテリジェンス規範データ)を紹介します。
Robomindは、人間のテレオ操作を通じて収集され、マルチビューの観察、固有受容ロボット状態情報、言語タスクの説明など、包括的なロボット関連情報を包含します。
模倣学習のデータの一貫性と信頼性を確保するために、Robomindは統一されたデータ収集プラットフォームと標準化されたプロトコルに基づいて構築されており、4つの異なるロボットの実施形態をカバーしています:Franka Emika Panda、UR5E、Agilex Dual-Armロボット、およびヒューマノイドロボットを備えたヒューマノイドロボット
二重の器用な手。
私たちのデータセットには、5Kの実際の障害デモも含まれており、それぞれに詳細な原因が伴い、ポリシー学習中に障害の反射と修正が可能になります。
さらに、Isaac Simシミュレーターにデジタルツイン環境を作成し、実際のタスクと資産を複製し、追加のトレーニングデータの低コストコレクションを容易にし、効率的な評価を可能にします。
データセットの品質と多様性を実証するために、シングルタスク設定のさまざまな模倣学習方法とマルチタスクシナリオ用の最先端のビジョンアクション(VLA)モデルを使用して、広範な実験を実施しました。
Robomindを活用することにより、VLAモデルは高い操作成功率を達成し、強力な一般化能力を実証しました。
私たちの知る限り、Robomindは統一されたプラットフォームで収集された最大の多体積視運動データセットであり、大規模で高品質のロボットトレーニングデータを提供します。
私たちのプロジェクトはhttps://x-humanoid-robomind.github.io/にあります。
要約(オリジナル)
In this paper, we introduce RoboMIND (Multi-embodiment Intelligence Normative Data for Robot Manipulation), a dataset containing 107k demonstration trajectories across 479 diverse tasks involving 96 object classes. RoboMIND is collected through human teleoperation and encompasses comprehensive robotic-related information, including multi-view observations, proprioceptive robot state information, and linguistic task descriptions. To ensure data consistency and reliability for imitation learning, RoboMIND is built on a unified data collection platform and a standardized protocol, covering four distinct robotic embodiments: the Franka Emika Panda, the UR5e, the AgileX dual-arm robot, and a humanoid robot with dual dexterous hands. Our dataset also includes 5k real-world failure demonstrations, each accompanied by detailed causes, enabling failure reflection and correction during policy learning. Additionally, we created a digital twin environment in the Isaac Sim simulator, replicating the real-world tasks and assets, which facilitates the low-cost collection of additional training data and enables efficient evaluation. To demonstrate the quality and diversity of our dataset, we conducted extensive experiments using various imitation learning methods for single-task settings and state-of-the-art Vision-Language-Action (VLA) models for multi-task scenarios. By leveraging RoboMIND, the VLA models achieved high manipulation success rates and demonstrated strong generalization capabilities. To the best of our knowledge, RoboMIND is the largest multi-embodiment teleoperation dataset collected on a unified platform, providing large-scale and high-quality robotic training data. Our project is at https://x-humanoid-robomind.github.io/.
arxiv情報
著者 | Kun Wu,Chengkai Hou,Jiaming Liu,Zhengping Che,Xiaozhu Ju,Zhuqin Yang,Meng Li,Yinuo Zhao,Zhiyuan Xu,Guang Yang,Shichao Fan,Xinhua Wang,Fei Liao,Zhen Zhao,Guangyu Li,Zhao Jin,Lecheng Wang,Jilei Mao,Ning Liu,Pei Ren,Qiang Zhang,Yaoxu Lyu,Mengzhen Liu,Jingyang He,Yulin Luo,Zeyu Gao,Chenxuan Li,Chenyang Gu,Yankai Fu,Di Wu,Xingyu Wang,Sixiang Chen,Zhenyu Wang,Pengju An,Siyuan Qian,Shanghang Zhang,Jian Tang |
発行日 | 2025-02-14 14:32:16+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google