要約
深層強化学習 (DRL) アルゴリズムは、知覚入力をロボット制御コマンドに直接マッピングすることで、特に未知の環境におけるロボットのナビゲーションに効果的であることが証明されています。
しかし、既存の手法のほとんどはナビゲーションにおけるローカル ミニマム問題を無視しているため、複雑な未知の環境を処理できません。
この論文では、この問題を克服するために、適応型順方向シミュレーション時間 (AFST) と呼ばれる、連続アクション空間を備えたセミマルコフ決定プロセス (SMDP) によってモデル化された最初の DRL ベースのナビゲーション方法を提案します。
具体的には、アクション空間の次元を削減し、SMDP のポリシー勾配をより適切に推定できるように GAE を変更することで、指定された SMDP 問題に対する分散近接ポリシー最適化 (DPPO) アルゴリズムを改善します。
さまざまな未知の環境での実験により、AFST の有効性が実証されています。
要約(オリジナル)
Deep reinforcement learning (DRL) algorithms have proven effective in robot navigation, especially in unknown environments, by directly mapping perception inputs into robot control commands. However, most existing methods ignore the local minimum problem in navigation and thereby cannot handle complex unknown environments. In this paper, we propose the first DRL-based navigation method modeled by a semi-Markov decision process (SMDP) with continuous action space, named Adaptive Forward Simulation Time (AFST), to overcome this problem. Specifically, we reduce the dimensions of the action space and improve the distributed proximal policy optimization (DPPO) algorithm for the specified SMDP problem by modifying its GAE to better estimate the policy gradient in SMDPs. Experiments in various unknown environments demonstrate the effectiveness of AFST.
arxiv情報
著者 | Yu’an Chen,Ruosong Ye,Ziyang Tao,Hongjian Liu,Guangda Chen,Jie Peng,Jun Ma,Yu Zhang,Jianmin Ji,Yanyong Zhang |
発行日 | 2023-07-04 12:43:55+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google