Can Visuo-motor Policies Benefit from Random Exploration Data? A Case Study on Stacking

要約

人間のデモは、ロボット操作の最近の進歩の鍵でしたが、それらのスケーラビリティは、必要な人間の労働のかなりのコストによって妨げられています。
このホワイトペーパーでは、ロボット操作で視覚モーターポリシーをトレーニングするためにしばしば見落とされがちなリソースとして、ワークスペースのランダムにサンプリングされた位置への動きを介して自律的に生成されたランダム探索データとビデオシーケンスとアクションに焦点を当てています。
模倣学習の範囲内で、2つのパラダイムを介してランダム探査データを調べます。(a)3つの自己監視学習目標、コントラスト、および蒸留の損失、蒸留損失を備えたランダム探索ビデオフレームの使用を調査し、視覚的なトレーニングへの適用性を評価することにより。
(b)自律データ収集における有効性を評価するために、段階的な学習フレームワークのコンテキストでランダムモーターコマンドを分析することにより。
この目標に向けて、750時間以上のロボットデータ収集に基づいた大規模な実験的研究を提示し、400の成功したエピソードと12,000の失敗したエピソードを含みます。
我々の結果は、次のことを示しています。(a)3つの自己監視学習目標のうち、対照的な損失は、ランダムな探索ビデオフレームを活用しながら、視覚的なトレーニングに最も効果的であると思われます。
(b)ランダムモーターコマンドで収集されたデータは、トレーニングデータ分布のバランスをとり、自律データ収集の成功率を改善する上で重要な役割を果たす可能性があります。
ソースコードとデータセットは、https://cloudgripper.orgで公開されます。

要約(オリジナル)

Human demonstrations have been key to recent advancements in robotic manipulation, but their scalability is hampered by the substantial cost of the required human labor. In this paper, we focus on random exploration data-video sequences and actions produced autonomously via motions to randomly sampled positions in the workspace-as an often overlooked resource for training visuo-motor policies in robotic manipulation. Within the scope of imitation learning, we examine random exploration data through two paradigms: (a) by investigating the use of random exploration video frames with three self-supervised learning objectives-reconstruction, contrastive, and distillation losses-and evaluating their applicability to visual pre-training; and (b) by analyzing random motor commands in the context of a staged learning framework to assess their effectiveness in autonomous data collection. Towards this goal, we present a large-scale experimental study based on over 750 hours of robot data collection, comprising 400 successful and 12,000 failed episodes. Our results indicate that: (a) among the three self-supervised learning objectives, contrastive loss appears most effective for visual pre-training while leveraging random exploration video frames; (b) data collected with random motor commands may play a crucial role in balancing the training data distribution and improving success rates in autonomous data collection within this study. The source code and dataset will be made publicly available at https://cloudgripper.org.

arxiv情報

著者 Shutong Jin,Axel Kaliff,Ruiyu Wang,Muhammad Zahid,Florian T. Pokorny
発行日 2025-03-30 19:36:29+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO パーマリンク