What Matters in Learning from Large-Scale Datasets for Robot Manipulation

要約

大規模なマルチタスクデモンストレーションデータセットからの模倣学習は、一般的に対応可能なロボットを構築するための有望なパスとして浮上しています。
その結果、世界中にこのような大規模なデータセットの構築に1000時間の時間が費やされました。
このような取り組みの継続的な成長にもかかわらず、ロボット工学データセットの有用性を改善し、下流の政策学習を促進するために、どのデータを収集すべきかについての体系的な理解がまだありません。
この作業では、この質問に答えるために大規模なデータセット構成調査を実施します。
データ生成フレームワークを開発して、既存のデータセット(センサーの配置やオブジェクトの種類やアレンジメントなど)の多様性の一般的なソースを手続きし、それを使用して制御された構成を備えた大規模なロボットデータセットを生成し、現実世界では固く高価な一連のデータセット構成研究を可能にします。
(1)将来の研究者がロボット工学の大規模なデータセットを収集するときに、どのような種類の多様性を強調すべきか、および(2)現在の開業医は、既存のデータセットから関連するデモを取得して、関心のあるタスクのダウンストリームポリシーパフォーマンスを最大化する方法。
私たちの研究では、いくつかの重要な洞察が得られます。たとえば、カメラのポーズと空間的配置は、収集と検索の調整の両方の重要な寸法であることがわかります。
現実世界のロボット学習設定では、シミュレーションからの洞察が引き継がれるだけでなく、DROIDなどの既存のデータセットでの検索戦略により、既存のトレーニング戦略を最大70%上回ることができることがわかります。
https://robo-mimiclabs.github.io/でその他の結果

要約(オリジナル)

Imitation learning from large multi-task demonstration datasets has emerged as a promising path for building generally-capable robots. As a result, 1000s of hours have been spent on building such large-scale datasets around the globe. Despite the continuous growth of such efforts, we still lack a systematic understanding of what data should be collected to improve the utility of a robotics dataset and facilitate downstream policy learning. In this work, we conduct a large-scale dataset composition study to answer this question. We develop a data generation framework to procedurally emulate common sources of diversity in existing datasets (such as sensor placements and object types and arrangements), and use it to generate large-scale robot datasets with controlled compositions, enabling a suite of dataset composition studies that would be prohibitively expensive in the real world. We focus on two practical settings: (1) what types of diversity should be emphasized when future researchers collect large-scale datasets for robotics, and (2) how should current practitioners retrieve relevant demonstrations from existing datasets to maximize downstream policy performance on tasks of interest. Our study yields several critical insights — for example, we find that camera poses and spatial arrangements are crucial dimensions for both diversity in collection and alignment in retrieval. In real-world robot learning settings, we find that not only do our insights from simulation carry over, but our retrieval strategies on existing datasets such as DROID allow us to consistently outperform existing training strategies by up to 70%. More results at https://robo-mimiclabs.github.io/

arxiv情報

著者 Vaibhav Saxena,Matthew Bronars,Nadun Ranawaka Arachchige,Kuancheng Wang,Woo Chul Shin,Soroush Nasiriany,Ajay Mandlekar,Danfei Xu
発行日 2025-06-16 14:25:29+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, cs.RO パーマリンク