要約
ロボット学習における長年の目標は、ロボットが自律的に新しいスキルを習得する方法を開発することです。
強化学習 (RL) は自律的なデータ収集を可能にするという約束を伴いますが、リセット関数や正確な成功検出器の設計の必要性など、環境の設計と計測に必要な多大な労力が部分的に理由として、現実世界で拡張することは依然として困難です。
。
一方、模倣学習 (IL) 手法では、環境設計の労力はほとんど、またはまったく必要ありませんが、その代わりに、収集されたデモンストレーションの形で人間による大幅な監督が必要になります。
これらの欠点に対処するために、自律型 IL の最近の取り組みは、自律型ポリシーがブートストラップできる人間のデモンストレーションの初期シード データセットから始まります。
自律型 IL アプローチには、純粋な IL 戦略だけでなく自律型 RL の課題にも対処できることが約束されていますが、この研究では、そのような技術はこの約束を果たせず、依然として実際の自律型データ収集をスケールアップすることはできないと仮定しています。
世界。
一連の実世界での実験を通じて、これらのアプローチが現実的な設定にスケールアップすると、環境設計の観点から RL での以前の試みとほぼ同じスケーリングの課題に直面することを実証しました。
さらに、さまざまなデータ スケールと 7 つのシミュレーションおよび現実世界のタスクにわたる自律型 IL 手法の厳密な研究を実行し、自律型データ収集によってパフォーマンスが若干向上する一方で、より多くの人的データを収集するだけで大幅な向上が得られることが多いことを実証しました。
私たちの研究は否定的な結果を示唆しています。つまり、現実世界のタスクのロボット ポリシーを学習するための自律的なデータ収集をスケールアップすることは、以前の研究で示唆されていたものよりも困難で非現実的であるということです。
データ収集のスケールアップにおける中核的な課題に関するこれらの洞察が、自律学習における今後の取り組みに役立つことを願っています。
要約(オリジナル)
A long-standing goal in robot learning is to develop methods for robots to acquire new skills autonomously. While reinforcement learning (RL) comes with the promise of enabling autonomous data collection, it remains challenging to scale in the real-world partly due to the significant effort required for environment design and instrumentation, including the need for designing reset functions or accurate success detectors. On the other hand, imitation learning (IL) methods require little to no environment design effort, but instead require significant human supervision in the form of collected demonstrations. To address these shortcomings, recent works in autonomous IL start with an initial seed dataset of human demonstrations that an autonomous policy can bootstrap from. While autonomous IL approaches come with the promise of addressing the challenges of autonomous RL as well as pure IL strategies, in this work, we posit that such techniques do not deliver on this promise and are still unable to scale up autonomous data collection in the real world. Through a series of real-world experiments, we demonstrate that these approaches, when scaled up to realistic settings, face much of the same scaling challenges as prior attempts in RL in terms of environment design. Further, we perform a rigorous study of autonomous IL methods across different data scales and 7 simulation and real-world tasks, and demonstrate that while autonomous data collection can modestly improve performance, simply collecting more human data often provides significantly more improvement. Our work suggests a negative result: that scaling up autonomous data collection for learning robot policies for real-world tasks is more challenging and impractical than what is suggested in prior work. We hope these insights about the core challenges of scaling up data collection help inform future efforts in autonomous learning.
arxiv情報
著者 | Suvir Mirchandani,Suneel Belkhale,Joey Hejna,Evelyn Choi,Md Sazzad Islam,Dorsa Sadigh |
発行日 | 2024-11-04 05:31:35+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google