報酬がまばらで目標が複数ある現実世界の環境では、学習は依然として大きな課題であり、強化学習 (RL) アルゴリズムは適切なポリシーを学習できません。
この論文では、強化学習によって導かれた階層的な複数目標ナビゲーションでタスクを分割する、Ready for Production Hierarchical RL (ReProHRL) と呼ばれる手法を紹介します。
経験的な結果は、提案された ReProHRL 手法が、トレーニング時間とパフォーマンスの両方の点で、シミュレーション環境と現実世界の環境において最先端のベースラインを上回ることを示しています。
どちらの方法も、単一の目標ベースのナビゲーションの単純な環境では 100% の成功率を達成しますが、より複雑な環境や複数の目標設定では、提案された方法はベースラインをそれぞれ 18% および 5% 上回ります。
現実世界での実装と概念実証のデモンストレーションでは、提案された方法をフロントカメラを備えた Crazyflie という名前のナノドローンに展開し、複数目標のナビゲーション実験を実行します。
Robots have been successfully used to perform tasks with high precision. In real-world environments with sparse rewards and multiple goals, learning is still a major challenge and Reinforcement Learning (RL) algorithms fail to learn good policies. Training in simulation environments and then fine-tuning in the real world is a common approach. However, adapting to the real-world setting is a challenge. In this paper, we present a method named Ready for Production Hierarchical RL (ReProHRL) that divides tasks with hierarchical multi-goal navigation guided by reinforcement learning. We also use object detectors as a pre-processing step to learn multi-goal navigation and transfer it to the real world. Empirical results show that the proposed ReProHRL method outperforms the state-of-the-art baseline in simulation and real-world environments in terms of both training time and performance. Although both methods achieve a 100% success rate in a simple environment for single goal-based navigation, in a more complex environment and multi-goal setting, the proposed method outperforms the baseline by 18% and 5%, respectively. For the real-world implementation and proof of concept demonstration, we deploy the proposed method on a nano-drone named Crazyflie with a front camera to perform multi-goal navigation experiments.
著者 | Tejaswini Manjunath,Mozhgan Navardi,Prakhar Dixit,Bharat Prakash,Tinoosh Mohsenin |
発行日 | 2023-08-17 02:23:59+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google