要約
深層強化学習 (DRL) を使用したロボット ナビゲーションは、移動ロボットのパフォーマンス向上に大きな可能性を示しています。
それにもかかわらず、既存の DRL ベースのナビゲーション手法のほとんどは、線速度や角速度などの低レベルの制御でロボットに直接命令するポリシーのトレーニングに主に焦点を当てており、長期的な実行中にロボットの速度が不安定になり、軌道が滑らかではなくなります。
別の方法は、ナビゲーション パスを直接出力する DRL ポリシーをトレーニングすることです。
ただし、パスを出力する DRL ポリシーをトレーニングするには、2 つの障害が発生します。(1) 潜在的なパスのアクション スペースには、低レベルのコマンドに比べて高次元が含まれることが多く、トレーニングの難易度が高くなります。
(2) パスを追跡するには、単一のタイム ステップではなく複数のタイム ステップが必要です。これには、ロボットとロボットの相互作用を述語するパスが必要です。
複数の時間ステップでの動的環境。
これにより、トレーニングに伴う課題がさらに増大します。
これらの課題に対応して、ロボットのナビゲーション パスを生成するポリシーをトレーニングする新しい DRL 手法である PathRL を提案します。
具体的には、特定のアクション空間の離散化手法とカスタマイズされた状態空間表現手法を採用して、関連する課題に対処します。
私たちの実験では、PathRL は他の DRL ナビゲーション方法と比較して、より高い成功率を達成し、角度回転の変動を低減し、安定したスムーズなロボットの動きを促進します。
私たちは、現実世界のシナリオと複数の困難なシミュレーション環境の両方で PathRL の競争力を実証します。
要約(オリジナル)
Robot navigation using deep reinforcement learning (DRL) has shown great potential in improving the performance of mobile robots. Nevertheless, most existing DRL-based navigation methods primarily focus on training a policy that directly commands the robot with low-level controls, like linear and angular velocities, which leads to unstable speeds and unsmooth trajectories of the robot during the long-term execution. An alternative method is to train a DRL policy that outputs the navigation path directly. However, two roadblocks arise for training a DRL policy that outputs paths: (1) The action space for potential paths often involves higher dimensions comparing to low-level commands, which increases the difficulties of training; (2) It takes multiple time steps to track a path instead of a single time step, which requires the path to predicate the interactions of the robot w.r.t. the dynamic environment in multiple time steps. This, in turn, amplifies the challenges associated with training. In response to these challenges, we propose PathRL, a novel DRL method that trains the policy to generate the navigation path for the robot. Specifically, we employ specific action space discretization techniques and tailored state space representation methods to address the associated challenges. In our experiments, PathRL achieves better success rates and reduces angular rotation variability compared to other DRL navigation methods, facilitating stable and smooth robot movement. We demonstrate the competitive edge of PathRL in both real-world scenarios and multiple challenging simulation environments.
arxiv情報
著者 | Wenhao Yu,Jie Peng,Quecheng Qiu,Hanyu Wang,Lu Zhang,Jianmin Ji |
発行日 | 2023-10-20 05:55:13+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google