要約
上り坂と下り坂ではエネルギー消費効率が大きく異なるため、複雑なオフロード地形環境(2.5Dマップ)上で最短距離の経路が必ずしもエネルギー消費量が最小の経路であるとは限りません。
エネルギーに敏感な車両にとって、2.5D 経路計画で距離とエネルギー消費の間の適切なトレードオフを実現することは非常に意味があります。
この論文では、深層強化学習ベースの 2.5D 多目的経路計画法 (DMOP) を提案します。
DMOP は、次の 3 つのステップで目的の経路を効率的に見つけることができます。 (1) 高解像度の 2.5D マップを小さいサイズのマップに変換します。
(2) トレーニングされたディープ Q ネットワーク (DQN) を使用して、小規模マップ上で目的のパスを見つけます。
(3) パス拡張手法を使用して、元の高解像度マップへの計画されたパスを構築します。
さらに、模倣学習法と報酬形成理論を適用して DQN を訓練します。
報酬関数は、地形、距離、境界の情報を使用して構築されます。
シミュレーションは、提案された方法が多目的の 2.5D 経路計画タスクを完了できることを示しています。
また、シミュレーションでは、この方法が同じマップ上で訓練されていない任意の計画タスクを実行できる強力な推論機能を備えていることが証明されています。
要約(オリジナル)
Due to the energy-consumption efficiency between up-slope and down-slope is hugely different, a path with the shortest length on a complex off-road terrain environment (2.5D map) is not always the path with the least energy consumption. For any energy-sensitive vehicles, realizing a good trade-off between distance and energy consumption on 2.5D path planning is significantly meaningful. In this paper, a deep reinforcement learning-based 2.5D multi-objective path planning method (DMOP) is proposed. The DMOP can efficiently find the desired path with three steps: (1) Transform the high-resolution 2.5D map into a small-size map. (2) Use a trained deep Q network (DQN) to find the desired path on the small-size map. (3) Build the planned path to the original high-resolution map using a path enhanced method. In addition, the imitation learning method and reward shaping theory are applied to train the DQN. The reward function is constructed with the information of terrain, distance, border. Simulation shows that the proposed method can finish the multi-objective 2.5D path planning task. Also, simulation proves that the method has powerful reasoning capability that enables it to perform arbitrary untrained planning tasks on the same map.
arxiv情報
著者 | Guoming Huang,Xiaofang Yuan,Zhixian Liu,Weihua Tan,Xiru Wu,Yaonan Wang |
発行日 | 2023-05-23 07:53:35+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google