Deep Reinforcement Learning-based Multi-objective Path Planning on the Off-road Terrain Environment for Ground Vehicles

要約

上り坂と下り坂ではエネルギー消費量が大きく異なるため、複雑なオフロード地形環境 (2.5D マップ) では、長さが最も短い経路が必ずしもエネルギー消費量が最小の経路であるとは限りません。
エネルギーに敏感な車両にとって、2.5D 経路計画で距離とエネルギー消費の間の適切なトレードオフを実現することは非常に意味があります。
この論文では、深層強化学習ベースの 2.5D 多目的経路計画法 (DMOP) を提案します。
DMOP は、次の 3 つのステップで目的の経路を効率的に見つけることができます。 (1) 高解像度の 2.5D マップを小さいサイズのマップに変換します。
(2) トレーニングされたディープ Q ネットワーク (DQN) を使用して、小規模マップ上で目的のパスを見つけます。
(3) パス拡張手法を使用して、元の高解像度マップへの計画されたパスを構築します。
さらに、ハイブリッド探索戦略と報酬形成理論が DQN の訓練に適用されます。
報酬関数は、地形、距離、境界の情報を使用して構築されます。
シミュレーション結果は、提案された方法が多目的2.5D経路計画タスクを非常に高い効率で完了できることを示しています。
同様の計画パスを使用した場合、提案手法の速度は A* 手法の 100 倍以上、H3DM 手法の 30 倍以上高速です。
また、シミュレーションは、この方法が訓練されていない任意の計画タスクを実行できる強力な推論能力を備えていることを証明しています。

要約(オリジナル)

Due to the vastly different energy consumption between up-slope and down-slope, a path with the shortest length on a complex off-road terrain environment (2.5D map) is not always the path with the least energy consumption. For any energy-sensitive vehicle, realizing a good trade-off between distance and energy consumption in 2.5D path planning is significantly meaningful. In this paper, we propose a deep reinforcement learning-based 2.5D multi-objective path planning method (DMOP). The DMOP can efficiently find the desired path in three steps: (1) Transform the high-resolution 2.5D map into a small-size map. (2) Use a trained deep Q network (DQN) to find the desired path on the small-size map. (3) Build the planned path to the original high-resolution map using a path-enhanced method. In addition, the hybrid exploration strategy and reward shaping theory are applied to train the DQN. The reward function is constructed with the information of terrain, distance, and border. Simulation results show that the proposed method can finish the multi-objective 2.5D path planning task with significantly high efficiency. With similar planned paths, the speed of the proposed method is more than 100 times faster than that of the A* method and 30 times faster than that of H3DM method. Also, simulation proves that the method has powerful reasoning capability that enables it to perform arbitrary untrained planning tasks.

arxiv情報

著者 Shuqiao Huang,Xiru Wu,Guoming Huang
発行日 2023-07-12 11:13:20+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.RO パーマリンク