要約
高品質で代表的なデータは、模倣学習 (IL) ベースと強化学習 (RL) ベースの動作計画タスクの両方に不可欠です。
実際のロボットの場合、障害物のある環境での安全性を考慮するため、IL のデモンストレーションまたは RL の体験として十分な適格なデータを収集することは困難です。
私たちは、経験に基づく計画を学習アーキテクチャに効率的に組み込んでデータ収集の問題を軽減する、計画プラスによる自己模倣学習 (SILP+) アルゴリズムを提案することで、この課題に取り組みます。
プランナーは、現在の RL ポリシーから成功した訪問州に基づいてデモンストレーションを生成し、これらのデモンストレーションから学習することでポリシーが改善されます。
このようにして、IL に必要なデモンストレーションを収集する人間の専門オペレーターの需要を軽減し、RL のパフォーマンスも向上させます。
さまざまな実験結果は、SILP+ が他のいくつかの方法と比較して、複雑な動作計画タスクにおいて優れたトレーニング効率を実現し、より安定した成功率を実現することを示しています。
物理的なロボットに関する広範なテストにより、物理的な設定における SILP+ の有効性が実証されています。
要約(オリジナル)
High-quality and representative data is essential for both Imitation Learning (IL)- and Reinforcement Learning (RL)-based motion planning tasks. For real robots, it is challenging to collect enough qualified data either as demonstrations for IL or experiences for RL due to safety considerations in environments with obstacles. We target this challenge by proposing the self-imitation learning by planning plus (SILP+) algorithm, which efficiently embeds experience-based planning into the learning architecture to mitigate the data-collection problem. The planner generates demonstrations based on successfully visited states from the current RL policy, and the policy improves by learning from these demonstrations. In this way, we relieve the demand for human expert operators to collect demonstrations required by IL and improve the RL performance as well. Various experimental results show that SILP+ achieves better training efficiency higher and more stable success rate in complex motion planning tasks compared to several other methods. Extensive tests on physical robots illustrate the effectiveness of SILP+ in a physical setting.
arxiv情報
著者 | Sha Luo,Lambert Schomaker |
発行日 | 2023-06-11 19:47:46+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google