要約
模倣学習におけるデータ収集には、多くの場合、強化学習を組み込んだ手法の場合、多数のデモンストレーションや頻繁な環境リセットなど、多大で手間のかかる人間による監督が必要です。
この研究では、代替アプローチである MILES (完全に自律的で自己監視されたデータ収集パラダイム) を提案し、これにより、たった 1 回のデモンストレーションと 1 回の環境リセットから効率的なポリシー学習が可能になることを示します。
MILES は、単一のデモンストレーションに戻ってその後に従うためのポリシーを自律的に学習し、データ収集中は自己誘導されるため、追加の人間の介入は不要です。
私たちは、キーで錠前をロックするなど、接触が多い正確な操作を必要とするタスクを含む、いくつかの現実世界のタスクにわたって MILES を評価しました。
単一のデモンストレーションと繰り返しの環境リセットがないという制約の下では、MILES は強化学習を活用した模倣学習方法などの最先端の代替手法を大幅に上回ることがわかりました。
私たちの実験とコードのビデオは、Web ページ www.robot-learning.uk/miles でご覧いただけます。
要約(オリジナル)
Data collection in imitation learning often requires significant, laborious human supervision, such as numerous demonstrations, and/or frequent environment resets for methods that incorporate reinforcement learning. In this work, we propose an alternative approach, MILES: a fully autonomous, self-supervised data collection paradigm, and we show that this enables efficient policy learning from just a single demonstration and a single environment reset. MILES autonomously learns a policy for returning to and then following the single demonstration, whilst being self-guided during data collection, eliminating the need for additional human interventions. We evaluated MILES across several real-world tasks, including tasks that require precise contact-rich manipulation such as locking a lock with a key. We found that, under the constraints of a single demonstration and no repeated environment resetting, MILES significantly outperforms state-of-the-art alternatives like imitation learning methods that leverage reinforcement learning. Videos of our experiments and code can be found on our webpage: www.robot-learning.uk/miles.
arxiv情報
著者 | Georgios Papagiannis,Edward Johns |
発行日 | 2024-10-25 17:06:50+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google