Teacher-Student Reinforcement Learning for Mapless Navigation using a Planetary Space Rover

要約

私たちは、強化学習 (RL) を使用して、惑星探査機のナビゲーションの自律性を強化するという課題に取り組みます。
将来の宇宙ミッションという野望には、ミッション目的を達成するために探査車の高度な自律航行機能が必要です。
ロボットの自律性における RL の可能性は明らかですが、シミュレーションへの依存が課題を引き起こします。
ポリシーを現実世界のシナリオに移行すると、多くの場合「現実ギャップ」に遭遇し、仮想環境から物理環境への移行が中断されます。
現実のギャップは、予測不可能な地形や環境要因が重要な役割を果たす火星や月のような地形での地図のないナビゲーションの状況ではさらに悪化します。
効果的なナビゲーションには、これらの複雑さと現実世界のデータノイズに適応した方法が必要です。
オフラインのノイズのあるデータを使用した、新しい 2 段階の RL アプローチを紹介します。
私たちのアプローチは、「カンニングによる学習」方法にヒントを得た、教師と生徒のポリシーによる学習パラダイムを採用しています。
教師のポリシーはシミュレーションでトレーニングされます。
その後、学生ポリシーはノイズの多いデータに基づいてトレーニングされ、教師の行動を模倣しながら現実世界の不確実性に対してより堅牢になることを目指します。
私たちのポリシーは、実際のテストのためにカスタム設計の探査車に転送されます。
教師と生徒のポリシーを比較分析すると、私たちのアプローチが行動パフォーマンスの向上、ノイズ耐性の強化、より効果的なシミュレーションから現実への転送を提供することが明らかになりました。

要約(オリジナル)

We address the challenge of enhancing navigation autonomy for planetary space rovers using reinforcement learning (RL). The ambition of future space missions necessitates advanced autonomous navigation capabilities for rovers to meet mission objectives. RL’s potential in robotic autonomy is evident, but its reliance on simulations poses a challenge. Transferring policies to real-world scenarios often encounters the ‘reality gap’, disrupting the transition from virtual to physical environments. The reality gap is exacerbated in the context of mapless navigation on Mars and Moon-like terrains, where unpredictable terrains and environmental factors play a significant role. Effective navigation requires a method attuned to these complexities and real-world data noise. We introduce a novel two-stage RL approach using offline noisy data. Our approach employs a teacher-student policy learning paradigm, inspired by the ‘learning by cheating’ method. The teacher policy is trained in simulation. Subsequently, the student policy is trained on noisy data, aiming to mimic the teacher’s behaviors while being more robust to real-world uncertainties. Our policies are transferred to a custom-designed rover for real-world testing. Comparative analyses between the teacher and student policies reveal that our approach offers improved behavioral performance, heightened noise resilience, and more effective sim-to-real transfer.

arxiv情報

著者 Anton Bjørndahl Mortensen,Emil Tribler Pedersen,Laia Vives Benedicto,Lionel Burg,Mads Rossen Madsen,Simon Bøgh
発行日 2023-09-22 11:39:50+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO パーマリンク