A Tansferability Metric Using Scene Similarity and Local Map Observation for DRL Navigation


グローバルマップを持たない複雑な環境における自律ナビゲーションは、移動ロボットにとって長年の課題である。深層強化学習(Deep Reinforcement Learning: DRL)は、その汎化能力の高さから、このような自律航法問題の解決に急速に関心が高まっているが、DRLは通常、訓練シーンと実際のテストシーンのギャップのために、実際の航法性能は平凡なものになる。既存の研究の多くは、アルゴリズムのチューニングに焦点を当て、その移植性を高めているが、その間のギャップをどのように定量化し、測定するかを研究しているものは少ない。本論文では、DRLエージェントの訓練シーンとテストシーンの間の移植性を定量化するために、新しい移植性指標–改良された画像テンプレートマッチングアルゴリズムを用いて計算されるシーンの類似性–を提案する。具体的には、DRLアルゴリズムの全体的な頑健性を評価するグローバルシーン類似度と、DRLエージェントがグローバルマップなしで展開される場合の安全性指標として機能するローカルシーン類似度の2つの伝達可能性性能指標を設計する。さらに本論文では、DRLナビゲーションアルゴリズムの移植性を向上させることを目的として、エージェントと目的地双方の空間情報と2D LiDARデータを融合したローカルマップをDRL観測として使用することを提案します。車輪型ロボットをケーススタディのプラットフォームとし、合計26の異なるシーンでシミュレーションと実世界実験の両方を実施。実験の結果、ローカルマップ観測設計の頑健性が確認され、DRLナビゲーションアルゴリズムの成功率予測におけるシーン類似性メトリックが検証された。


Autonomous navigation in complex environments without a global map is a long-standing challenge for mobile robots. While deep reinforcement learning (DRL) has attracted a rapidly growing interest in solving such an autonomous navigation problem for its generalization capability, DRL typically leads to a mediocre navigation performance in practice due to the gap between the training scene and the actual test scene. Most existing work focuses on tuning the algorithm to enhance its transferability, whereas few investigates how to quantify or measure the gap therebetween. This paper proposes a new transferability metric — the scene similarity calculated using an improved image template matching algorithm to quantify the transferability of a DRL agent between the training and test scenes. Specifically, two transferability performance indicators are designed including the global scene similarity that evaluates the overall robustness of a DRL algorithm and the local scene similarity that serves as a safety measure when a DRL agent is deployed without a global map. In addition, this paper proposes the use of a local map that fuses 2D LiDAR data with spatial information of both the agent and the destination as the DRL observation, aiming to improve the transferability of DRL navigation algorithms. With a wheeled robot as the case study platform, both simulation and real-world experiments are conducted in a total of 26 different scenes. The experimental results confirm the robustness of the local map observation design and validate the scene similarity metric in predicting the success rate of DRL navigation algorithms.


著者 Shiwei Lian,Feitian Zhang
発行日 2023-12-04 07:41:55+00:00
arxivサイト arxiv_id(pdf)

カテゴリー: cs.RO パーマリンク