RoboMIND: Benchmark on Multi-embodiment Intelligence Normative Data for Robot Manipulation

要約

堅牢で汎用的なロボット操作ポリシーを開発することは、ロボット工学の分野における重要な目標です。
効果的な一般化を達成するには、多数の実証軌跡と多様なタスクを網羅する包括的なデータセットを構築することが不可欠です。
インターネットから収集できる視覚データや言語データとは異なり、ロボット データセットは詳細な観察と操作アクションを必要とするため、ハードウェアとソフトウェアのインフラストラクチャと人的労力に多大な投資が必要です。
既存の研究では、さまざまな個々のロボット データセットを組み立てることに重点が置かれていますが、依然として統一されたデータ収集標準が欠如しており、タスク、シナリオ、ロボットの種類の多様性が不十分です。
この論文では、61 の異なるオブジェクト クラスを含む 279 の多様なタスクにわたる 55,000 の実世界のデモンストレーション軌跡を特徴とする RoboMIND (ロボット操作のためのマルチ実施形態インテリジェンス規範データ) を紹介します。
RoboMIND は人間の遠隔操作を通じて収集され、マルチビュー RGB-D 画像、固有受容ロボットの状態情報、エンドエフェクターの詳細、言語タスクの説明などの包括的なロボット関連情報が含まれます。
ポリシー学習中のデータセットの一貫性と信頼性を確保するために、RoboMIND は統一されたデータ収集プラットフォームと標準化されたプロトコルに基づいて構築されており、4 つの異なるロボットの実施形態をカバーしています。
当社は、RoboMIND を複数の側面にわたって定量的および定性的に徹底的に分析し、データセットの多様性についての詳細な洞察を提供します。
私たちの実験では、4 つの最先端の模倣学習方法を使用して広範な実世界でのテストを実施し、RoboMIND データを使用したトレーニングにより高い操作成功率と強力な一般化がもたらされることを実証しました。
私たちのプロジェクトは https://x-humanoid-robomind.github.io/ にあります。

要約(オリジナル)

Developing robust and general-purpose robotic manipulation policies is a key goal in the field of robotics. To achieve effective generalization, it is essential to construct comprehensive datasets that encompass a large number of demonstration trajectories and diverse tasks. Unlike vision or language data that can be collected from the Internet, robotic datasets require detailed observations and manipulation actions, necessitating significant investment in hardware-software infrastructure and human labor. While existing works have focused on assembling various individual robot datasets, there remains a lack of a unified data collection standard and insufficient diversity in tasks, scenarios, and robot types. In this paper, we introduce RoboMIND (Multi-embodiment Intelligence Normative Data for Robot manipulation), featuring 55k real-world demonstration trajectories across 279 diverse tasks involving 61 different object classes. RoboMIND is collected through human teleoperation and encompasses comprehensive robotic-related information, including multi-view RGB-D images, proprioceptive robot state information, end effector details, and linguistic task descriptions. To ensure dataset consistency and reliability during policy learning, RoboMIND is built on a unified data collection platform and standardized protocol, covering four distinct robotic embodiments. We provide a thorough quantitative and qualitative analysis of RoboMIND across multiple dimensions, offering detailed insights into the diversity of our datasets. In our experiments, we conduct extensive real-world testing with four state-of-the-art imitation learning methods, demonstrating that training with RoboMIND data results in a high manipulation success rate and strong generalization. Our project is at https://x-humanoid-robomind.github.io/.

arxiv情報

著者 Kun Wu,Chengkai Hou,Jiaming Liu,Zhengping Che,Xiaozhu Ju,Zhuqin Yang,Meng Li,Yinuo Zhao,Zhiyuan Xu,Guang Yang,Zhen Zhao,Guangyu Li,Zhao Jin,Lecheng Wang,Jilei Mao,Xinhua Wang,Shichao Fan,Ning Liu,Pei Ren,Qiang Zhang,Yaoxu Lyu,Mengzhen Liu,Jingyang He,Yulin Luo,Zeyu Gao,Chenxuan Li,Chenyang Gu,Yankai Fu,Di Wu,Xingyu Wang,Sixiang Chen,Zhenyu Wang,Pengju An,Siyuan Qian,Shanghang Zhang,Jian Tang
発行日 2024-12-18 14:17:16+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.RO パーマリンク