要約
ロボット操作においてデータ収集はますます重要な問題となっていますが、広範な一般化を促進するためにデータを効果的に収集する方法についてはまだ多くの理解が不足しています。
大規模なロボットによるデータ収集に関する最近の研究では、通常、オブジェクトの種類やテーブルのテクスチャなど、データ収集中にさまざまな環境要因が変化します。
これらの研究は多様なシナリオをカバーしようとしていますが、データに基づいてトレーニングされたポリシーの構成能力を明示的に説明していません。
ロボットポリシーが、目に見えない要因の組み合わせに遭遇したときに成功するように、トレーニングデータから変動のさまざまな環境要因(オブジェクトタイプ、テーブルの高さなど)を構成できる場合、これを利用して、その構成が対処する状況のデータ収集を回避できます。
この可能性を調査するために、私たちはシミュレーションと実際のロボットの両方で徹底的な実証研究を実施し、データ収集戦略を比較し、視覚模倣学習ポリシーが環境要因を構成できるかどうかを評価します。
実際のロボットでこれを行うには、以前のロボット データセットを活用することが重要ですが、ポリシーは実際に構成を示すことがわかりました。
これらの洞察を利用して、データ収集中に同じ量の労力を費やす単純なアプローチよりも優れた一般化を誘導できる、構成を活用したデータ収集戦略を提案することで、ドメイン内データ収集のより良い実践方法を提供します。
さらに、このような戦略からのデータに基づいてトレーニングされた実際のロボット ポリシーは、環境要因の目に見えない組み合わせを含むまったく新しい環境に移行すると 77.5% の成功率を達成するのに対し、環境の変動を考慮せずに収集されたデータを使用してトレーニングされたポリシーは移行できないことを実証します。
事実上、成功率はわずか 2.5% です。
http://iliad.stanford.edu/robot-data-comp/ でビデオを提供しています。
要約(オリジナル)
Data collection has become an increasingly important problem in robotic manipulation, yet there still lacks much understanding of how to effectively collect data to facilitate broad generalization. Recent works on large-scale robotic data collection typically vary a wide range of environmental factors during data collection, such as object types and table textures. While these works attempt to cover a diverse variety of scenarios, they do not explicitly account for the possible compositional abilities of policies trained on the data. If robot policies are able to compose different environmental factors of variation (e.g., object types, table heights) from their training data to succeed when encountering unseen factor combinations, then we can exploit this to avoid collecting data for situations that composition would address. To investigate this possibility, we conduct thorough empirical studies both in simulation and on a real robot that compare data collection strategies and assess whether visual imitation learning policies can compose environmental factors. We find that policies do exhibit composition, although leveraging prior robotic datasets is critical for this on a real robot. We use these insights to provide better practices for in-domain data collection by proposing data collection strategies that exploit composition, which can induce better generalization than naive approaches for the same amount of effort during data collection. We further demonstrate that a real robot policy trained on data from such a strategy achieves a success rate of 77.5% when transferred to entirely new environments that encompass unseen combinations of environmental factors, whereas policies trained using data collected without accounting for environmental variation fail to transfer effectively, with a success rate of only 2.5%. We provide videos at http://iliad.stanford.edu/robot-data-comp/.
arxiv情報
著者 | Jensen Gao,Annie Xie,Ted Xiao,Chelsea Finn,Dorsa Sadigh |
発行日 | 2024-03-08 07:15:38+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google