ReProHRL: Towards Multi-Goal Navigation in the Real World using Hierarchical Agents

要約

ロボットを使用して高精度のタスクを実行することに成功しています。
報酬がまばらで目標が複数ある現実世界の環境では、学習は依然として大きな課題であり、強化学習 (RL) アルゴリズムは適切なポリシーを学習できません。
シミュレーション環境でトレーニングしてから、現実世界で微調整するのが一般的なアプローチです。
ただし、現実世界の設定に適応するのは困難です。
この論文では、強化学習によって導かれた階層的な複数目標ナビゲーションでタスクを分割する、Ready for Production Hierarchical RL (ReProHRL) と呼ばれる手法を紹介します。
また、複数目標のナビゲーションを学習し、それを現実世界に転送するための前処理ステップとしてオブジェクト検出器も使用します。
経験的な結果は、提案された ReProHRL 手法が、トレーニング時間とパフォーマンスの両方の点で、シミュレーション環境と現実世界の環境において最先端のベースラインを上回ることを示しています。
どちらの方法も、単一の目標ベースのナビゲーションの単純な環境では 100% の成功率を達成しますが、より複雑な環境や複数の目標設定では、提案された方法はベースラインをそれぞれ 18% および 5% 上回ります。
現実世界での実装と概念実証のデモンストレーションでは、提案された方法をフロントカメラを備えた Crazyflie という名前のナノドローンに展開し、複数目標のナビゲーション実験を実行します。

要約(オリジナル)

Robots have been successfully used to perform tasks with high precision. In real-world environments with sparse rewards and multiple goals, learning is still a major challenge and Reinforcement Learning (RL) algorithms fail to learn good policies. Training in simulation environments and then fine-tuning in the real world is a common approach. However, adapting to the real-world setting is a challenge. In this paper, we present a method named Ready for Production Hierarchical RL (ReProHRL) that divides tasks with hierarchical multi-goal navigation guided by reinforcement learning. We also use object detectors as a pre-processing step to learn multi-goal navigation and transfer it to the real world. Empirical results show that the proposed ReProHRL method outperforms the state-of-the-art baseline in simulation and real-world environments in terms of both training time and performance. Although both methods achieve a 100% success rate in a simple environment for single goal-based navigation, in a more complex environment and multi-goal setting, the proposed method outperforms the baseline by 18% and 5%, respectively. For the real-world implementation and proof of concept demonstration, we deploy the proposed method on a nano-drone named Crazyflie with a front camera to perform multi-goal navigation experiments.

arxiv情報

著者 Tejaswini Manjunath,Mozhgan Navardi,Prakhar Dixit,Bharat Prakash,Tinoosh Mohsenin
発行日 2023-08-17 02:23:59+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, cs.RO パーマリンク