Kaiwu: A Multimodal Manipulation Dataset and Framework for Robot Learning and Human-Robot Interaction

要約

基礎モデルや模倣学習を含む最先端のロボット学習技術はすべて、一般的なインテリジェントロボットフィールドのボトルネックの1つを構成する大規模で高品質のデータセットに大きな要求をもたらします。
このペーパーでは、Kaiwu Multimodal Datasetを紹介して、特にダイナミクス情報とその細粒ラベリングを使用して、洗練された組み立てシナリオで、欠落している実世界の同期されたマルチモーダルデータの問題に対処します。
データセットは、最初に、20人の被験者と30の相互作用オブジェクトを備えた人間、環境、ロボットのデータ収集フレームワークの統合を提供し、統合されたアクションの完全に11,664のインスタンスをもたらします。
デモ、手の動き、操作の圧力、組み立てプロセスの音、マルチビュービデオ、高精度モーションキャプチャ情報、ファーストパーソンビデオとの視線、筋電図信号がすべて記録されています。
絶対タイムスタンプに基づいたファイングレインマルチレベルの注釈、およびセマンティックセグメンテーションラベルが実行されます。
Kaiwu Datasetは、ロボット学習、器用な操作、人間の意図調査、人間のロボットコラボレーション研究を促進することを目指しています。

要約(オリジナル)

Cutting-edge robot learning techniques including foundation models and imitation learning from humans all pose huge demands on large-scale and high-quality datasets which constitute one of the bottleneck in the general intelligent robot fields. This paper presents the Kaiwu multimodal dataset to address the missing real-world synchronized multimodal data problems in the sophisticated assembling scenario,especially with dynamics information and its fine-grained labelling. The dataset first provides an integration of human,environment and robot data collection framework with 20 subjects and 30 interaction objects resulting in totally 11,664 instances of integrated actions. For each of the demonstration,hand motions,operation pressures,sounds of the assembling process,multi-view videos, high-precision motion capture information,eye gaze with first-person videos,electromyography signals are all recorded. Fine-grained multi-level annotation based on absolute timestamp,and semantic segmentation labelling are performed. Kaiwu dataset aims to facilitate robot learning,dexterous manipulation,human intention investigation and human-robot collaboration research.

arxiv情報

著者 Shuo Jiang,Haonan Li,Ruochen Ren,Yanmin Zhou,Zhipeng Wang,Bin He
発行日 2025-03-07 08:28:24+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.RO パーマリンク