Exploring the Generalizability of Geomagnetic Navigation: A Deep Reinforcement Learning approach with Policy Distillation

要約

自動運転車の進歩により、未知の環境でのナビゲーションと探索が力を与えました。
自律車両の地磁気ナビゲーションは、GPSまたは慣性ナビゲーションデバイスからの独立性により、注目を集めています。
地磁気ナビゲーションアプローチは広く調査されていますが、学習した地磁気ナビゲーション戦略の一般化可能性は未開拓のままです。
学んだ戦略のパフォーマンスは、新しく入力された領域の地磁気特性に関する知識が不足しているため、戦略が学習されているソースドメインの外側で劣化する可能性があります。
このペーパーでは、ディープ補強学習(DRL)を介した学習した地磁気ナビゲーション戦略の一般化について説明します。
特に、DRLエージェントを採用して、分散ナビゲーション戦略を表す分散ドメインから複数の教師モデルを学習し、ナビゲーションエリア全体で一般化のために教師モデルを整理します。
潜在的なベースと本質的な動機付けの報酬の両方を統合する教師モデルのトレーニングにおける報酬形状メカニズムを設計します。
設計された報酬形状は、DRLエージェントの探査効率を高め、教師モデルの表現を改善することができます。
獲得された教師モデルに伴い、マルチテーカーポリシーの蒸留を採用して、個々の教師が学んだポリシーをマージし、ナビゲーションドメイン全体の一般化を伴うナビゲーション戦略につながります。
数値シミュレーションを実施し、結果は、ソースドメインから新しいナビゲーションエリアへの学習DRLモデルの効果的な転送を示しています。
既存の進化ベースの地磁気ナビゲーション方法と比較して、私たちのアプローチは、ドメインクロスナビゲーションのナビゲーション長、期間、見出し偏差、成功率の点で優れた性能を提供します。

要約(オリジナル)

The advancement in autonomous vehicles has empowered navigation and exploration in unknown environments. Geomagnetic navigation for autonomous vehicles has drawn increasing attention with its independence from GPS or inertial navigation devices. While geomagnetic navigation approaches have been extensively investigated, the generalizability of learned geomagnetic navigation strategies remains unexplored. The performance of a learned strategy can degrade outside of its source domain where the strategy is learned, due to a lack of knowledge about the geomagnetic characteristics in newly entered areas. This paper explores the generalization of learned geomagnetic navigation strategies via deep reinforcement learning (DRL). Particularly, we employ DRL agents to learn multiple teacher models from distributed domains that represent dispersed navigation strategies, and amalgamate the teacher models for generalizability across navigation areas. We design a reward shaping mechanism in training teacher models where we integrate both potential-based and intrinsic-motivated rewards. The designed reward shaping can enhance the exploration efficiency of the DRL agent and improve the representation of the teacher models. Upon the gained teacher models, we employ multi-teacher policy distillation to merge the policies learned by individual teachers, leading to a navigation strategy with generalizability across navigation domains. We conduct numerical simulations, and the results demonstrate an effective transfer of the learned DRL model from a source domain to new navigation areas. Compared to existing evolutionary-based geomagnetic navigation methods, our approach provides superior performance in terms of navigation length, duration, heading deviation, and success rate in cross-domain navigation.

arxiv情報

著者 Wenqi Bai,Shiliang Zhang,Xiaohui Zhang,Xuehui Ma,Songnan Yang,Yushuai Li,Tingwen Huang
発行日 2025-02-07 16:43:51+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO パーマリンク