Efficient Data Collection for Robotic Manipulation via Compositional Generalization

要約

ロボット操作においてデータ収集はますます重要な問題となっていますが、広範な一般化を促進するためにデータを効果的に収集する方法についてはまだ多くの理解が不足しています。
大規模なロボットによるデータ収集に関する最近の研究では、さまざまなシナリオをカバーするために、データ収集中に変動する多くの環境要因 (オブジェクトの種類、テーブルのテクスチャなど) を変更するのが一般的です。
ただし、データに基づいてトレーニングされたポリシーの構成能力を明示的に説明するものではありません。
ロボットポリシーが、目に見えない要因の組み合わせに遭遇したときに成功するようにデータから環境要因を構成できる場合、これを利用して、その構成が対処する状況のデータ収集を回避できます。
この可能性を調査するために、私たちはシミュレーションと実際のロボットの両方で徹底的な実証研究を実施し、データ収集戦略を比較し、視覚模倣学習ポリシーが環境要因を構成できるかどうかを評価します。
実際のロボットでこれを行うには、以前のロボット データセットを活用することが重要ですが、ポリシーは実際に構成を示すことがわかりました。
私たちはこれらの洞察を利用して、データ収集中に同じ量の労力を費やす単純なアプローチよりも優れた一般化を誘導できる、合成を活用したより優れたドメイン内データ収集戦略を提案します。
さらに、このような戦略からのデータに基づいてトレーニングされた実際のロボット ポリシーは、環境要因の目に見えない組み合わせを含むまったく新しい環境に移行すると 77.5% の成功率を達成するのに対し、環境の変動を考慮せずに収集されたデータを使用してトレーニングされたポリシーは移行できないことを実証します。
事実上、成功率はわずか 2.5% です。
http://iliad.stanford.edu/robot-data-comp/ でビデオを提供しています。

要約(オリジナル)

Data collection has become an increasingly important problem in robotic manipulation, yet there still lacks much understanding of how to effectively collect data to facilitate broad generalization. Recent works on large-scale robotic data collection typically vary many environmental factors of variation (e.g., object types, table textures) during data collection, to cover a diverse range of scenarios. However, they do not explicitly account for the possible compositional abilities of policies trained on the data. If robot policies can compose environmental factors from their data to succeed when encountering unseen factor combinations, we can exploit this to avoid collecting data for situations that composition would address. To investigate this possibility, we conduct thorough empirical studies both in simulation and on a real robot that compare data collection strategies and assess whether visual imitation learning policies can compose environmental factors. We find that policies do exhibit composition, although leveraging prior robotic datasets is critical for this on a real robot. We use these insights to propose better in-domain data collection strategies that exploit composition, which can induce better generalization than naive approaches for the same amount of effort during data collection. We further demonstrate that a real robot policy trained on data from such a strategy achieves a success rate of 77.5% when transferred to entirely new environments that encompass unseen combinations of environmental factors, whereas policies trained using data collected without accounting for environmental variation fail to transfer effectively, with a success rate of only 2.5%. We provide videos at http://iliad.stanford.edu/robot-data-comp/.

arxiv情報

著者 Jensen Gao,Annie Xie,Ted Xiao,Chelsea Finn,Dorsa Sadigh
発行日 2024-05-21 14:18:47+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, cs.RO パーマリンク